一种合成语音与文本对齐的方法、装置及计算机储存介质
授权
摘要
本发明公开了一种合成语音与文本对齐的方法、装置及计算机储存介质,其中方法包括:在待合成文本的每个字后面加入位置标签;对带位置标签的文本进行文本预处理及音素转换得到音素序列;将音素序列输入语音合成模型,预测音素的时长信息和声学特征;将声学特征通过声码器转换为合成语音;累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。本发明通过在待合成文本中加入位置标签,在文本处理中保持位置标签的相对位置,利用语音合成模型的中间输出结果以极小的成本,实现了合成音频与待合成文本之间的字符级别的对齐。
基本信息
专利标题 :
一种合成语音与文本对齐的方法、装置及计算机储存介质
专利标题(英):
暂无
公开(公告)号 :
CN112420016A
申请号 :
CN202011313327.6
公开(公告)日 :
2021-02-26
申请日 :
2020-11-20
授权号 :
CN112420016B
授权日 :
2022-06-03
发明人 :
王昆朱海周琳岷刘书君
申请人 :
四川长虹电器股份有限公司
申请人地址 :
四川省绵阳市高新区绵兴东路35号
代理机构 :
四川省成都市天策商标专利事务所
代理人 :
陈艺文
优先权 :
CN202011313327.6
主分类号 :
G10L13/02
IPC分类号 :
G10L13/02 G10L13/08 G10L15/02 G10L15/26
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L13/00
语音合成;文本-语音合成系统
G10L13/02
产生合成语音的方法;语音合成设备
法律状态
2022-06-03 :
授权
2021-03-16 :
实质审查的生效
IPC(主分类) : G10L 13/02
申请日 : 20201120
申请日 : 20201120
2021-02-26 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载