按讲话者进行语音识别的目标话音分离

实质审查的生效

摘要

处理音频数据的声学特征以生成所述声学特征的一个或多个修正版本，其中所述声学特征的每一个修正版本隔离单个相应的人类讲话者的一个或多个话语。各种实现方式通过使用自动语音识别系统的部分处理音频数据来生成声学特征。各种实现方式通过使用遮罩处理声学特征来生成修正声学特征，其中所述遮罩是使用经训练的话音滤波器模型来处理声学特征以及针对单个人类讲话者的讲话者嵌入而生成的。在经训练的话音滤波器模型上生成的输出使用自动语音识别系统来处理，以在不用重构音频数据的情况下生成单个人类讲话者的话语的预测文本表示。

基本信息

专利标题：

按讲话者进行语音识别的目标话音分离

专利标题（英）：

暂无

公开（公告）号：

CN114365216A

申请号：

CN201980097575.0

公开（公告）日：

2022-04-15

申请日：

2019-10-10

授权号：

暂无

授权日：

暂无

发明人：

王泉伊格纳西奥·洛佩斯·莫雷诺万利

申请人：

谷歌有限责任公司

申请人地址：

美国加利福尼亚州

代理机构：

中原信达知识产权代理有限责任公司

代理人：

李宝泉

优先权：

CN201980097575.0

主分类号：

G10L15/16

IPC分类号：

G10L15/16 G10L15/20 G10L17/18 G10L21/0272 G10L21/0308 G06N3/02

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/08

语音分类或检索

G10L15/16

利用人工神经网络

法律状态

2022-05-03 ：

实质审查的生效

IPC(主分类) : G10L 15/16
申请日 : 20191010

2022-04-15 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载