一种结合嘴部运动分析的话者角色区分方法与系统
公开
摘要
一种结合嘴部运动分析的话者角色区分方法与系统,方法包括:步骤1:分割视频,分割后得到音频信息和视频信息;步骤2:音频信息分析,截取音频信息中出现语音特征的语音片段,记录所述语音片段的时间节点,并提取语音片段的声纹特征用于角色区分;步骤3:视频信息分析,分析视频信息中各角色的嘴部状态,检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点;步骤4:音视频融合分析划分话者角色。一方面利用音频信息,提取音频特征,并基于音频特征进行说话人转换检测,然后提取声纹特征用于话者角色区分;另一方面利用视频信息,对视频中人说话的起始时间进行判断;最后融合两种检测结果得到更准确的角色区分结果。
基本信息
专利标题 :
一种结合嘴部运动分析的话者角色区分方法与系统
专利标题(英):
暂无
公开(公告)号 :
CN114299953A
申请号 :
CN202111632122.9
公开(公告)日 :
2022-04-08
申请日 :
2021-12-29
授权号 :
暂无
授权日 :
暂无
发明人 :
申意萍陈友斌徐一波张志坚
申请人 :
湖北微模式科技发展有限公司
申请人地址 :
湖北省武汉市东湖开发区关东科技工业园七号地块
代理机构 :
湖北高韬律师事务所
代理人 :
张承接
优先权 :
CN202111632122.9
主分类号 :
G10L15/25
IPC分类号 :
G10L15/25 G10L15/02 G10L15/04 G10L15/18 G10L17/02 G10L17/14 G10L25/27 G10L25/57 G06V20/40 G06V40/16 G06V40/20 G06T7/20
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L15/00
语音识别
G10L15/24
利用非声学特征的语音识别
G10L15/25
使用嘴唇位置,嘴唇运动或者脸部分析
法律状态
2022-04-08 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载