一种用于声音事件检测的声音编码器的生成方法

授权

摘要

本发明提供了一种用于声音事件检测的声音编码器的生成方法，包括：对第一训练集中的无标签的预训练音频信号进行失真处理，得到失真训练信号；将失真训练信号输入初始声音编码器，得到第一特征向量；基于预训练音频信号和感知机集合，确定第二特征向量；基于第一特征向量和第二特征向量修改初始声音编码器的参数，得到候选声音编码器；通过第二训练集中有标签的微调音频信号对候选声音编码器进行训练，得到目标声音编码器。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器，再通过有标签的微调音频信号对候选声音编码器进行微调，减少训练过程中对强标签样本的依赖，通过失真处理提升了声音编码器的鲁棒性。

基本信息

专利标题：

一种用于声音事件检测的声音编码器的生成方法

专利标题（英）：

暂无

公开（公告）号：

CN113205820A

申请号：

CN202110434588.1

公开（公告）日：

2021-08-03

申请日：

2021-04-22

授权号：

CN113205820B

授权日：

2022-05-13

发明人：

任延珍刘武洋何佳庆王丽娜

申请人：

武汉大学

申请人地址：

湖北省武汉市武昌区珞珈山武汉大学

代理机构：

武汉科皓知识产权代理事务所(特殊普通合伙)

代理人：

张火春

优先权：

CN202110434588.1

主分类号：

G10L19/00

IPC分类号：

G10L19/00 G10L19/16 G10L25/51 G06K9/62 G06K9/46 G06K9/00