基于双模态模型的语音识别方法、装置、设备及存储介质

实质审查的生效

摘要

本发明涉及一种人工智能技术领域，提供一种基于双模态模型的语音识别方法、装置、电子设备及计算机可读存储介质，其中方法包括：对将嘴部视频片段进行切分，切分后的数据包括视频流数据、音频流数据、以及文本数据；对视频流数据、音频流数据以及文本数据进行预处理，分别获取对应的图片序列数据、音频序列数据以及标准文本；通过构建的双模态模型对图片序列数据、音频序列数据进行特征提取，获取对应的图片序列特征向量、音频序列特征向量，并将图片序列特征向量与音频序列特征向量拼接在一起形成双模态特征向量；训练双模态模型；通过训练后的双模态模型识别用户的意图。本发明主要目的在于通过双模态模型识别用户唇部动作提升语音识别准确率。

基本信息

专利标题：

基于双模态模型的语音识别方法、装置、设备及存储介质

专利标题（英）：

暂无

公开（公告）号：

CN114519999A

申请号：

CN202210151202.0

公开（公告）日：

2022-05-20

申请日：

2022-02-15

授权号：

暂无

授权日：

暂无

发明人：

南海顺

申请人：

平安科技（深圳）有限公司

申请人地址：

广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

代理机构：

北京鸿元知识产权代理有限公司

代理人：

张娓娓

优先权：

CN202210151202.0

主分类号：

G10L15/02

IPC分类号：

G10L15/02 G10L15/06 G10L15/16 G10L15/25 G10L15/26 G10L19/02 G10L19/26 G06N3/04 G06N3/08 G06V20/40

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/02

语音识别的特征提取；识别单位的选择

法律状态

2022-06-07 ：

实质审查的生效

IPC(主分类) : G10L 15/02
申请日 : 20220215

2022-05-20 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载