一种端到端长时语音识别方法

授权

摘要

本发明提供了一种端到端长时语音识别方法。该方法包括：选取语料库为训练数据集，对训练数据集中的语音数据进行数据预处理和特征提取，生成语音特征；构造融合外部语言模型和长时语音识别算法的改进的RNN‑T模型，将语音特征输入进的RNN‑T模型进行训练，得到训练好的改进的RNN‑T模型；将训练好的改进的RNN‑T模型作为互学习知识蒸馏算法中的教师模型，利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型，利用训练和验证好的学生模型对待识别的长时语音数据进行识别，输出语音识别结果。本发明通过对外部语言模型、长时语音识别算法模块和RNN‑T模型三部分进行融合，提升了模型长时语音识别的鲁棒性和泛化能力的同时，优化了算法的时间和空间复杂度。

基本信息

专利标题：

一种端到端长时语音识别方法

专利标题（英）：

暂无

公开（公告）号：

CN113516968A

申请号：

CN202110631808.X

公开（公告）日：

2021-10-19

申请日：

2021-06-07

授权号：

CN113516968B

授权日：

2022-05-20

发明人：

明悦邹俊伟温志刚李泽瑞吕柏阳

申请人：

北京邮电大学

申请人地址：

北京市海淀区西土城路10号

代理机构：

北京市商泰律师事务所

代理人：

黄晓军

优先权：

CN202110631808.X

主分类号：

G10L15/02

IPC分类号：

G10L15/02 G10L15/06 G10L15/16 G10L15/183