一种多声源融合场景的人声检测方法及装置

实质审查的生效

摘要

本申请公开了一种多声源融合场景的人声检测方法及装置，本申请提供的多声源融合场景的人声检测方法，通过利用第一语音帧样本与第二语音帧样本分别作为正样本和负样本，通过以上的正样本与负样本进行MFCC特征特区以及语谱图生成，然后利用生成的语谱图对深度学习网络单元进行人声MFCC特征识别训练，再利用深度学习网络单元输出的人声MFCC特征，对循环神经网络单元进行人声检测训练，以提高神经网络对多声源环境下的人声检测能力，构建人声检测模型，以便通过构建的人声检测模型对待检测的多声源声音信号进行人声检测，从而获得多声源声音信号的人声检测结果，解决了现有的多声源人声检测难以准确检测出人声的技术问题。

基本信息

专利标题：

一种多声源融合场景的人声检测方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN114420099A

申请号：

CN202210088372.9

公开（公告）日：

2022-04-29

申请日：

2022-01-25

授权号：

暂无

授权日：

暂无

发明人：

陈晓敏杨志景刘庆李灏曾睿江奕锋戴宇

申请人：

广东工业大学

申请人地址：

广东省广州市越秀区东风东路729号大院

代理机构：

北京集佳知识产权代理有限公司

代理人：

许庆胜

优先权：

CN202210088372.9

主分类号：

G10L15/02

IPC分类号：

G10L15/02 G10L15/06 G10L15/16

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

G10L15/02

语音识别的特征提取；识别单位的选择

法律状态

2022-05-20 ：

实质审查的生效

IPC(主分类) : G10L 15/02
申请日 : 20220125

2022-04-29 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载