一种音频数据处理方法和音频处理装置

实质审查的生效

摘要

本申请公开了人工智能领域的一种音频数据处理方法。该方法包括：获取待处理音频数据；将待处理音频数据输入第一自动语音识别模型，当第一自动语音识别模型输出的音素概率矩阵包括非空白帧的字典概率向量和空白帧的字典概率向量时，去除在音素概率矩阵中空白帧的字典概率向量，得到有效音素概率矩阵；根据有效音素概率矩阵获取目标音素序列；将待处理音频数据输入第二自动语音识别模型；根据第二自动语音识别模型输出的参考文本序列确定参考音素序列；当目标音素序列与参考音素序列对齐时，确定待处理音频数据的标签为参考文本序列。该方法可以自动标注音频数据，并且准确性很高。本申请还提供一种能够实现上述方法的音频处理装置。

基本信息

专利标题：

一种音频数据处理方法和音频处理装置

专利标题（英）：

暂无

公开（公告）号：

CN114495912A

申请号：

CN202011162768.0

公开（公告）日：

2022-05-13

申请日：

2020-10-27

授权号：

暂无

授权日：

暂无

发明人：

孙宇嘉陈家胜柯胜强

申请人：

华为技术有限公司

申请人地址：

广东省深圳市龙岗区坂田华为总部办公楼

代理机构：

深圳市深佳知识产权代理事务所(普通合伙)

代理人：

陈松浩

优先权：

CN202011162768.0

主分类号：

G10L15/06

IPC分类号：

G10L15/06 G10L15/16 G10L15/02 G10L15/22 G10L15/26 G10L15/28

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/06

创建基准模板；训练语音识别系统，例如对说话者声音特征的适应

法律状态

2022-05-31 ：

实质审查的生效

IPC(主分类) : G10L 15/06
申请日 : 20201027

2022-05-13 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载