一种基于时频域生成对抗网络的语音增强方法

授权

摘要

本发明公开了一种基于时频域生成对抗网络的语音增强方法，在传统的基于时频域生成对抗网络的语音增强方法的基础上，通过增加一个频域鉴别器，使语音增强模型能够同时学习到输入语音的时域特征和频域特征，以提高模型的性能。其中，时域鉴别器直接判别生成器输出的增强语音；频域鉴别器则对增强语音做短时傅里叶变换后得到频域特征进行判别。模型训练时，时域和频域鉴别器同时监督生成器，使生成器能够同时学习到语音和噪声的时域和频域特征。并且，为了保留原始语音的底层信息和防止生成器产生过拟合，在模型的损失函数中加入频域约束项。本发明方法增强性能更好，且其能处理的噪声种类更多、适用的场景更广。

基本信息

专利标题：

一种基于时频域生成对抗网络的语音增强方法

专利标题（英）：

暂无

公开（公告）号：

CN112802491A

申请号：

CN202110167844.5

公开（公告）日：

2021-05-14

申请日：

2021-02-07

授权号：

CN112802491B

授权日：

2022-06-14

发明人：

高戈尹文兵陈怡杨玉红曾邦王霄

申请人：

武汉大学

申请人地址：

湖北省武汉市武昌区珞珈山武汉大学

代理机构：

武汉科皓知识产权代理事务所(特殊普通合伙)

代理人：

许莲英

优先权：

CN202110167844.5

主分类号：

G10L21/0224

IPC分类号：

G10L21/0224 G10L21/0232 G10L25/30 G10L19/02

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L21/00

为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号

G10L21/02

语音增强，例如降低噪声或消除回声

G10L21/0208

噪声过滤

G10L21/0216

以噪声估计使用的方法为特征的

G10L21/0224

在时域上的处理

法律状态

2022-06-14 ：

授权

2021-06-01 ：

实质审查的生效

IPC(主分类) : G10L 21/0224
申请日 : 20210207

2021-05-14 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

1、

CN112802491A.PDF

PDF下载