一种基于多尺度残差注意力网络的声音场景分类方法

实质审查的生效

摘要

本发明提供一种基于多尺度残差注意力网络的声音场景分类方法，包括将采集到的音频数据进行特征提取，提取出对数梅尔频谱图及其一阶差分和二阶差分作为输入特征；构建多尺度残差注意力网络，将提取到的对数梅尔频谱图输入到网络中进行训练建立分类模型；采用mixup方法增强数据多样性；采用焦点损失关注分类困难的样本；获取新的声音场景语音，利用分类模型对语音进行声音场景分类，得到声音场景分类结果。本发明采用对数梅尔频谱图及其一阶和二阶差分，使用多尺度残差注意力网络模型来对声音场景进行分类，能够挖掘更多丰富全面的特征信息，从而提高声音场景分类性能。

基本信息

专利标题：

一种基于多尺度残差注意力网络的声音场景分类方法

专利标题（英）：

暂无

公开（公告）号：

CN114373476A

申请号：

CN202210028342.9

公开（公告）日：

2022-04-19

申请日：

2022-01-11

授权号：

暂无

授权日：

暂无

发明人：

雷震春周勇

申请人：

江西师范大学

申请人地址：

江西省南昌市紫阳大道99号

代理机构：

北京慕达星云知识产权代理事务所(特殊普通合伙)

代理人：

李冉

优先权：

CN202210028342.9

主分类号：

G10L25/03

IPC分类号：

G10L25/03 G10L25/30 G10L25/51 G06K9/62 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L25/00

不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术

G10L25/03

以提取参数类型为特征的

法律状态

2022-05-06 ：

实质审查的生效

IPC(主分类) : G10L 25/03
申请日 : 20220111

2022-04-19 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载