声源分离方法及装置

公开

摘要

本发明提供一种声源分离方法及装置，所述方法包括：获取视频帧图像中的视觉引导特征；将第一混叠多声源声谱图和所述视觉引导特征输入训练好的预测编码循环卷积神经网络模型，获取第一掩膜图；根据所述第一混叠多声源声谱图和所述第一掩膜图，获取分离的声音信号。本发明通过将视觉引导特征和混叠多声源声谱图输入训练好的预测编码循环卷积神经网络模型预测各声音分量的掩膜图，然后利用掩膜图和混叠多声源声谱图获取分离的声音信号，实现声谱图和视觉引导特征在同一网络模型中进行处理，网络模型规模小，且视觉特征和声音特征能够渐进式的有效融合，提高了声源分离的精度。

基本信息

专利标题：

声源分离方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN114596876A

申请号：

CN202210073239.6

公开（公告）日：

2022-06-07

申请日：

2022-01-21

授权号：

暂无

授权日：

暂无

发明人：

张兆翔谭铁牛宋增杰

申请人：

中国科学院自动化研究所

申请人地址：

北京市海淀区中关村东路95号

代理机构：

北京路浩知识产权代理有限公司

代理人：

陈新生

优先权：

CN202210073239.6

主分类号：

G10L21/0272

IPC分类号：

G10L21/0272 G10L21/0308 G06N3/08 G06N3/04 H04N21/233 H04N21/439

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L21/00

为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号

G10L21/02

语音增强，例如降低噪声或消除回声

G10L21/0272

声音信号的分离

法律状态

2022-06-07 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载