一种语音语料生成系统训练方法

授权

摘要

一种语音语料生成系统训练方法，包括发音人身份编码器训练、场景编码器训练、转换器训练，所述发音人身份编码器训练包括如下步骤：S11.搭建发音人身份编码器的初始网络结构；采集不同发音人的不同音频作为编码器训练样本；S12.将梅尔特征输入发音人身份编码器，获取每一条有效音频的发音人编码；S13.计算映射点形成的质心，S14.将损失函数得到的梯度反向传导，更新发音人身份编码器；S15.重复步骤S13‑S14进行反复迭代，直至发音人身份编码器收敛。本发明能够快速大批量自动生成不同场景、不同发音人、不同语速、不同音量的语音语料；并能针对性的对特定的场景补充场景语料，或识别率较低命令词的语料。

基本信息

专利标题：

一种语音语料生成系统训练方法

专利标题（英）：

暂无

公开（公告）号：

CN114120973A

申请号：

CN202210110278.9

公开（公告）日：

2022-03-01

申请日：

2022-01-29

授权号：

CN114120973B

授权日：

2022-04-08

发明人：

陈佩云曹艳艳

申请人：

成都启英泰伦科技有限公司

申请人地址：

四川省成都市高新区天府五街200号菁蓉汇4号楼A座12层

代理机构：

代理人：

优先权：

CN202210110278.9

主分类号：

G10L15/02

IPC分类号：

G10L15/02 G10L15/06 G10L15/16 G10L15/26 G10L19/16 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/02

语音识别的特征提取；识别单位的选择

法律状态

2022-04-08 ：

授权

2022-03-18 ：

实质审查的生效

IPC(主分类) : G10L 15/02
申请日 : 20220129

2022-03-01 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载