基于概率生成和非自回归模型的多说话人语音合成方法

实质审查的生效

摘要

本发明提出了一种基于概率生成和非自回归模型的多说话人语音合成方法，包括：S1、说话人个性化编码器和概率生成编码器接收目标梅尔频谱并分别提取说话人个性化向量和概率生成向量；S2、基于深度网络的编码器对拼接融合的输入向量进行编码得到音素级深层特征；S3、音素时长预测器接收拼接融合的融合特征并预测音素时长序列；S4、长度规整网络接收音素时长序列并对融合特征进行扩展，得到帧级特征；S5、基于深度网络的解码器接收帧级特征并映射为预测梅尔频谱，后处理网络补充预测梅尔频谱的残差信息；S6、声码器将补充了残差信息的预测梅尔频谱映射为声音波形，得到合成语音。本发明能够提高多说话人语音合成系统的泛化性和合成语音的相似性。

基本信息

专利标题：

基于概率生成和非自回归模型的多说话人语音合成方法

专利标题（英）：

暂无

公开（公告）号：

CN114267329A

申请号：

CN202111601179.2

公开（公告）日：

2022-04-01

申请日：

2021-12-24

授权号：

暂无

授权日：

暂无

发明人：

李琳欧阳贝贝洪青阳

申请人：

厦门大学

申请人地址：

福建省厦门市思明区思明南路422号

代理机构：

厦门福贝知识产权代理事务所(普通合伙)

代理人：

陈远洋

优先权：

CN202111601179.2

主分类号：

G10L13/08

IPC分类号：

G10L13/08 G10L25/30

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L13/00

语音合成；文本-语音合成系统

G10L13/08

文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定

法律状态

2022-04-19 ：

实质审查的生效

IPC(主分类) : G10L 13/08
申请日 : 20211224

2022-04-01 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载