语言模型训练方法、音频识别方法和计算机设备

公开

摘要

本申请涉及一种语言模型训练方法、音频识别方法、装置、计算机设备、存储介质和计算机程序产品。通过将待识别音频中的音频特征以及每帧音频的发音状态输入目标语言模型，其中目标语言模型是基于混合发音词典进行训练得到，并且混合发音词典包含多个有语种和风格标识的样本音素，通过目标语言模型识别每帧音频之间的关联关系，确定待识别音频的歌词发音序列，从而根据歌词发音序列识别待识别音频对应的歌词文本。相较于传统的通过识别音频语种再通过对应语种模型识别音频的方式，本方案利用基于混合发音词典训练的语言模型，并基于语种和流派共同识别音频中的歌词信息，能够提高音频识别的准确度。

基本信息

专利标题：

语言模型训练方法、音频识别方法和计算机设备

专利标题（英）：

暂无

公开（公告）号：

CN114613359A

申请号：

CN202210331883.9

公开（公告）日：

2022-06-10

申请日：

2022-03-31

授权号：

暂无

授权日：

暂无

发明人：

王武城赵伟峰

申请人：

腾讯音乐娱乐科技（深圳）有限公司

申请人地址：

广东省深圳市前海深港合作区前湾一路1号A栋201室

代理机构：

华进联合专利商标代理有限公司

代理人：

卢晓霞

优先权：

CN202210331883.9

主分类号：

G10L15/06

IPC分类号：

G10L15/06 G10L15/02 G10L15/22 G10L15/26 G10L15/30 G10L15/16

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/06

创建基准模板；训练语音识别系统，例如对说话者声音特征的适应

法律状态

2022-06-10 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载