一种用于声音事件检测的声音编码器的生成方法
授权
摘要

本发明提供了一种用于声音事件检测的声音编码器的生成方法,包括:对第一训练集中的无标签的预训练音频信号进行失真处理,得到失真训练信号;将失真训练信号输入初始声音编码器,得到第一特征向量;基于预训练音频信号和感知机集合,确定第二特征向量;基于第一特征向量和第二特征向量修改初始声音编码器的参数,得到候选声音编码器;通过第二训练集中有标签的微调音频信号对候选声音编码器进行训练,得到目标声音编码器。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器,再通过有标签的微调音频信号对候选声音编码器进行微调,减少训练过程中对强标签样本的依赖,通过失真处理提升了声音编码器的鲁棒性。

基本信息
专利标题 :
一种用于声音事件检测的声音编码器的生成方法
专利标题(英):
暂无
公开(公告)号 :
CN113205820A
申请号 :
CN202110434588.1
公开(公告)日 :
2021-08-03
申请日 :
2021-04-22
授权号 :
CN113205820B
授权日 :
2022-05-13
发明人 :
任延珍刘武洋何佳庆王丽娜
申请人 :
武汉大学
申请人地址 :
湖北省武汉市武昌区珞珈山武汉大学
代理机构 :
武汉科皓知识产权代理事务所(特殊普通合伙)
代理人 :
张火春
优先权 :
CN202110434588.1
主分类号 :
G10L19/00
IPC分类号 :
G10L19/00  G10L19/16  G10L25/51  G06K9/62  G06K9/46  G06K9/00  
相关图片
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L19/00
用于冗余度下降情形的语音或音频信号分析-合成技术;语音或音频信号编码或解码,采用源滤波器模型或心理声学分析
法律状态
2022-05-13 :
授权
2021-08-20 :
实质审查的生效
IPC(主分类) : G10L 19/00
申请日 : 20210422
2021-08-03 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN113205820A.PDF
PDF下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332