一种细粒度韵律建模的语音生成模型、设备及存储介质

授权

摘要

本发明提供细粒度韵律建模的语音生成模型、设备及存储介质，其中，模型包括：文本信息输入文本编码器模块，得到文本的编码特征；频谱信息输入韵律编码模块，得到音素级别的语音的韵律特征；语音的韵律特征输入解耦合模块，将语音的韵律特征中包含的文本内容信息和韵律信息解耦合，并只留下语音的韵律特征的韵律信息；文本的编码特征和语音的韵律特征的韵律信息输入解码器，生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分，韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势，同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。

基本信息

专利标题：

一种细粒度韵律建模的语音生成模型、设备及存储介质

专利标题（英）：

暂无

公开（公告）号：

CN114093342A

申请号：

CN202210078586.8

公开（公告）日：

2022-02-25

申请日：

2022-01-24

授权号：

CN114093342B

授权日：

2022-05-03

发明人：

陶建华王诗明傅睿博易江燕

申请人：

中国科学院自动化研究所

申请人地址：

北京市海淀区中关村东路95号

代理机构：

北京华夏泰和知识产权代理有限公司

代理人：

邓菊香

优先权：

CN202210078586.8

主分类号：

G10L13/10

IPC分类号：

G10L13/10 G10L13/02

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L13/00

语音合成；文本-语音合成系统

G10L13/08

文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定

G10L13/10

来自文本的韵律规则；重音或声调

法律状态

2022-05-03 ：

授权

2022-03-15 ：

实质审查的生效

IPC(主分类) : G10L 13/10
申请日 : 20220124

2022-02-25 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载