端到端多讲话者视听自动语音识别

公开

摘要

用于从视听数据(204)转录语音的单一视听自动语音识别(AV‑ASR)模型(200)包括编码器前端(260)和解码器(280)。编码器前端包括注意力机制(270)，该注意力机制被配置成接收视听数据的音频轨迹(210)和视频部分(220)。视频部分包括多个视频面部轨迹(230)，每个视频面部轨迹与相应人的面部相关联。对于每个视频面部轨迹，注意力机制被配置成确定以下置信度分数，该置信度分数指示与视频面部轨迹相关联的相应人的面部包括音频轨迹的讲话面部的可能性。解码器被配置成处理音频轨迹和多个视频面部轨迹中的与最高置信度分数相关联的视频面部轨迹以确定音频轨迹的语音识别结果(248)。

基本信息

专利标题：

端到端多讲话者视听自动语音识别

专利标题（英）：

暂无

公开（公告）号：

CN114616620A

申请号：

CN202080071967.2

公开（公告）日：

2022-06-10

申请日：

2020-10-02

授权号：

暂无

授权日：

暂无

发明人：

奥塔维奥·布拉加

申请人：

谷歌有限责任公司

申请人地址：

美国加利福尼亚州

代理机构：

中原信达知识产权代理有限责任公司

代理人：

邓聪惠

优先权：

CN202080071967.2

主分类号：

G10L15/06

IPC分类号：

G10L15/06 G10L15/16 G10L15/22 G10L15/25 G10L15/28

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/06

创建基准模板；训练语音识别系统，例如对说话者声音特征的适应

法律状态

2022-06-10 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载