基于位置编码卷积神经网络的声音定位识别方法及装置
实质审查的生效
摘要
本发明提供一种基于位置编码卷积神经网络的声音定位识别方法及装置,该方法包括:将目标声源信号输入多任务模型中的编码模型,得到目标声源信号的编码结果;将目标声源信号和编码结果输入多任务模型中的特征提取模型,得到目标声源信号的特征向量;将目标声源信号的特征向量输入多任务模型中的解码模型,得到目标声源信号的解码结果;将目标声源信号的解码结果输入多任务模型中的定位识别模型,得到目标声源信号的定位结果和识别结果。本发明实现消除特征向量中的时间位置信息干扰,从目标声源信号中深度挖掘影响定位任务和识别任务的本质特征,并充分考虑定位任务和识别任务之间的相关性和差异性,有效提高目标声源信号的定位精度和识别精度。
基本信息
专利标题 :
基于位置编码卷积神经网络的声音定位识别方法及装置
专利标题(英):
暂无
公开(公告)号 :
CN114420150A
申请号 :
CN202111654890.4
公开(公告)日 :
2022-04-29
申请日 :
2021-12-30
授权号 :
暂无
授权日 :
暂无
发明人 :
刘峰李岱徽陈亮沈同圣赵德鑫丁昊
申请人 :
中国人民解放军军事科学院国防科技创新研究院
申请人地址 :
北京市丰台区东大街53号院
代理机构 :
北京路浩知识产权代理有限公司
代理人 :
王庆龙
优先权 :
CN202111654890.4
主分类号 :
G10L25/03
IPC分类号 :
G10L25/03 G10L25/18 G10L25/30 G10L25/51 G06N3/08 G06N3/04
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L25/00
不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术
G10L25/03
以提取参数类型为特征的
法律状态
2022-05-20 :
实质审查的生效
IPC(主分类) : G10L 25/03
申请日 : 20211230
申请日 : 20211230
2022-04-29 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载