基于深度学习的流式实时语音识别方法

实质审查的生效

摘要

本发明涉及一种基于深度学习的流式实时语音识别方法，通过输入RAW声音波形信号的语音片段，构建语音识别声学模型并训练，在执行预测时，将得到的声学特征张量作为输入，并通过流式CTC解码器的解码算法进行解码；语音识别的语言模型采用统计N‑Gram模型，通过大规模语料库得到N元组统计数据；结合中文汉语拼音与汉字对应关系的字典，使用流式维特比解码算法进行解码，得到语音识别最终文本结果；在模型落地部署后调用API接口或模块，使用流式算法模式，结合流式实时语音激活检测方法，实现流式实时语音识别。该方法不存在上文信息对下文信息的长时依赖，上下文无关，或仅存在下文信息对上文信息的依赖，可实现算法模型推理时的流式实时语音识别。

基本信息

专利标题：

基于深度学习的流式实时语音识别方法

专利标题（英）：

暂无

公开（公告）号：

CN114550708A

申请号：

CN202210151123.X

公开（公告）日：

2022-05-27

申请日：

2022-02-14

授权号：

暂无

授权日：

暂无

发明人：

苗启广宋建锋聂磊刘如意卢子祥刘向增赵博程马卓奇

申请人：

西安电子科技大学重庆集成电路创新研究院

申请人地址：

重庆市沙坪坝区西永微电园研发楼3期1号楼1单元

代理机构：

西安恒泰知识产权代理事务所

代理人：

李郑建

优先权：

CN202210151123.X

主分类号：

G10L15/16

IPC分类号：

G10L15/16 G10L15/02 G10L15/04 G10L15/06 G10L15/22 G10L15/26 G10L25/87

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/08

语音分类或检索

G10L15/16

利用人工神经网络

法律状态

2022-06-14 ：

实质审查的生效

IPC(主分类) : G10L 15/16
申请日 : 20220214

2022-05-27 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载