一种多说话人、多语言的语音合成方法及系统
授权
摘要
本发明公开了一种多说话人、多语言的语音合成方法,包括提取语音声学特征;将不同语言的文本处理为统一的表征方式,并将音频和文本对齐,获取时长信息;构建说话人空间和语言空间,生成说话人id和语言id,提取说话人向量和语言向量加入到初始语音合成模型,采用对齐后的文本、时长信息和语音声学特征对初始语音合成模型进行训练,得到语音合成模型;对待合成文本处理后生成说话人id和语言id;将说话人id、文本以及语言id,输入到语音合成模型,输出语音声学特征并转换为音频。还公开了一种系统。本发明实现了对说话人的特征以及语言特征的“解纠缠”,并且只需要变换id就可以实现说话人或语言的转换。
基本信息
专利标题 :
一种多说话人、多语言的语音合成方法及系统
专利标题(英):
暂无
公开(公告)号 :
CN112435650A
申请号 :
CN202011256113.X
公开(公告)日 :
2021-03-02
申请日 :
2020-11-11
授权号 :
CN112435650B
授权日 :
2022-04-15
发明人 :
朱海王昆周琳珉刘书君
申请人 :
四川长虹电器股份有限公司
申请人地址 :
四川省绵阳市高新区绵兴东路35号
代理机构 :
四川省成都市天策商标专利事务所
代理人 :
张秀敏
优先权 :
CN202011256113.X
主分类号 :
G10L13/047
IPC分类号 :
G10L13/047 G10L13/04 G10L13/08 G10L25/24
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L13/00
语音合成;文本-语音合成系统
G10L13/02
产生合成语音的方法;语音合成设备
G10L13/04
语音合成系统的零部件,例如合成设备结构或存储器管理
G10L13/047
语音合成设备的体系结构
法律状态
2022-04-15 :
授权
2021-03-19 :
实质审查的生效
IPC(主分类) : G10L 13/047
申请日 : 20201111
申请日 : 20201111
2021-03-02 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载