端到端的在线语音检测与识别方法、系统及设备

授权

摘要

本发明属于语音检测与识别领域，具体涉及了一种端到端的在线语音检测与识别方法、系统及设备，旨在解决现有在线语音识别技术需要训练与部署多个模型，模型计算效率低，部署与调参过程复杂，对标注样本数据依赖强的问题。本发明包括：通过无标注语音数据自监督训练获取预训练wav2vec2.0模型；进行模型的一阶段和二阶段微调，并通过多任务语音数据进行训练，获得语音检测与识别的多任务模型；对于在线音频数据，进行分块、边缘拼接，并通过多任务模型在线识别与边缘剔除，获得实时的语音识别文本。本发明对标签数据依赖性低，模型参数量少、结构简单，并且联合建模降低计算消耗，可用于低资源、实时性要求高的场景，识别准确、精度高。

基本信息

专利标题：

端到端的在线语音检测与识别方法、系统及设备

专利标题（英）：

暂无

公开（公告）号：

CN112951213A

申请号：

CN202110175961.6

公开（公告）日：

2021-06-11

申请日：

2021-02-09

授权号：

CN112951213B

授权日：

2022-05-24

发明人：

周世玉徐波李蒙

申请人：

中国科学院自动化研究所

申请人地址：

北京市海淀区中关村东路95号

代理机构：

北京市恒有知识产权代理事务所(普通合伙)

代理人：

郭文浩

优先权：

CN202110175961.6

主分类号：

G10L15/06

IPC分类号：

G10L15/06 G10L25/87 G10L15/16 G10L15/26

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/06

创建基准模板；训练语音识别系统，例如对说话者声音特征的适应

法律状态

2022-05-24 ：

授权

2021-07-02 ：

实质审查的生效

IPC(主分类) : G10L 15/06
申请日 : 20210209

2021-06-11 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载