一种端到端中文语音识别方法
实质审查的生效
摘要
一种端到端中文语音识别方法,属于语音识别领域。首先探索了基于Transformer编码器和LAS解码器的Transformer‑LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer‑LAS模型;其次,由于Attention过于灵活的对齐方式会使其在嘈杂环境中的效果急剧下降,研究中采用连接时序分类(CTC)辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出效果更好的Conformer‑LAS‑CTC语音识别模型;最后,在开源中文普通话Aishell‑1数据集上对提出来的模型进行验证。
基本信息
专利标题 :
一种端到端中文语音识别方法
专利标题(英):
暂无
公开(公告)号 :
CN114373451A
申请号 :
CN202210077486.3
公开(公告)日 :
2022-04-19
申请日 :
2022-01-24
授权号 :
暂无
授权日 :
暂无
发明人 :
孙俊陈戈吴豪吴小俊方伟陈祺东李超游琪冒钟杰
申请人 :
江南大学
申请人地址 :
江苏省无锡市滨湖区蠡湖大道1800号
代理机构 :
哈尔滨市阳光惠远知识产权代理有限公司
代理人 :
张勇
优先权 :
CN202210077486.3
主分类号 :
G10L15/06
IPC分类号 :
G10L15/06 G10L15/183
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L15/00
语音识别
G10L15/06
创建基准模板;训练语音识别系统,例如对说话者声音特征的适应
法律状态
2022-05-06 :
实质审查的生效
IPC(主分类) : G10L 15/06
申请日 : 20220124
申请日 : 20220124
2022-04-19 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载