一种基于视频的人声分离方法、终端设备及存储介质

公开

摘要

本发明涉及一种基于视频的人声分离方法、终端设备及存储介质，该方法中包括：将任意两个不同说话人的视频片段对应的音频信息与一随机噪声合并为混合音频，将混合音频和两个视频片段对应的两组人脸信息作为一个训练数据；构建人声分离模型，人声分离模型对混合音频和人脸信息分别进行特征提取和特征处理后组合为一个组合特征，经过维度转换和全连接层转换为两个说话人特征，将两个说话人特征分别与混合音频特征相乘后得到特征频谱图并还原为音频数据；通过训练集对人声分离模型进行训练后，通过训练后的人声分离模型对带有人脸信息和音频信息的视频片段进行人声分离。本发明可以实现提取视频中指定说话人的干净说话语音。

基本信息

专利标题：

一种基于视频的人声分离方法、终端设备及存储介质

专利标题（英）：

暂无

公开（公告）号：

CN114598914A

申请号：

CN202210146711.4

公开（公告）日：

2022-06-07

申请日：

2022-02-17

授权号：

暂无

授权日：

暂无

发明人：

陈剑超肖龙源李稀敏叶志坚

申请人：

厦门快商通科技股份有限公司

申请人地址：

福建省厦门市软件园三期诚毅北大街63号1301单元

代理机构：

厦门市精诚新创知识产权代理有限公司

代理人：

赵薇

优先权：

CN202210146711.4

主分类号：

H04N21/434

IPC分类号：

H04N21/434 G06N3/04 G06N3/08

法律状态

2022-06-07 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载