基于声纹特征与生成对抗学习的多说话人语音分离方法

授权

摘要

本发明提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法，用以解决现有技术中语音分离不够准确和纯净的问题。所述多说话人语音分离方法，对目标说话人、其他无关说话人、噪声的音频数据混合得到初始混合训练语料，对目标说话人的纯净训练语料和初始化生成器的分离结果提取声纹特征，完成对判别器的训练；判别器参数固化后，再完成生成器的训练；参数固化的生成器通过生成对抗学习从待分离语音中分离出目标说话人语音。本发明利用了生成对抗学习能生成与目标相似的样本，通过生成对抗网络不断逼近输出分布，减小了多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异，实现目标说话人音频的跟踪识别。

基本信息

专利标题：

基于声纹特征与生成对抗学习的多说话人语音分离方法

专利标题（英）：

暂无

公开（公告）号：

CN111128197A

申请号：

CN201911356481.9

公开（公告）日：

2020-05-08

申请日：

2019-12-25

授权号：

CN111128197B

授权日：

2022-05-13

发明人：

明悦傅豪

申请人：

北京邮电大学

申请人地址：

北京市海淀区西土城路10号

代理机构：

北京市商泰律师事务所

代理人：

黄晓军

优先权：

CN201911356481.9

主分类号：

G10L17/00

IPC分类号：

G10L17/00 G10L17/02 G10L17/04 G10L17/06 G10L17/18 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L17/00

讲话者辨认或验证

法律状态

2022-05-13 ：

授权

2020-06-02 ：

实质审查的生效

IPC(主分类) : G10L 17/00
申请日 : 20191225

2020-05-08 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载