一种基于MFCC相似矩阵的语音音乐分离方法
授权
摘要
本发明公开了一种基于MFCC相似矩阵的语音音乐分离方法,属于语音音频处理领域。传统的语音参数一般为39维MFCC参数。在带背景音乐的讲话环境下,说话人的语音信息在相邻帧之间是不连续的,而背景音乐的相邻帧之间的语音信息变化是连续且缓慢的。该方法在此规律的基础上,对39维MFCC参数求解相似矩阵SMFCC,获取语音相邻帧之间的相关性,根据统计规律区分出讲话语音段和纯背景音乐段并将其切割分离,然后分别将背景音乐段和语音段输入7层双向LSTM神经网络进行数据分离,最后再对分离的数据进行整合,得到分离的说话人声音和背景音乐声音。经过测试,该方法可以提高整体的语音段和非语音段的识别准确率,且运算速度快、计算量较小。
基本信息
专利标题 :
一种基于MFCC相似矩阵的语音音乐分离方法
专利标题(英):
暂无
公开(公告)号 :
CN112562726A
申请号 :
CN202011161333.4
公开(公告)日 :
2021-03-26
申请日 :
2020-10-27
授权号 :
CN112562726B
授权日 :
2022-05-27
发明人 :
龙华王延凯邵玉斌杜庆治
申请人 :
昆明理工大学
申请人地址 :
云南省昆明市呈贡区吴家营街道景明南路727号
代理机构 :
北京方圆嘉禾知识产权代理有限公司
代理人 :
王月松
优先权 :
CN202011161333.4
主分类号 :
G10L25/24
IPC分类号 :
G10L25/24 G10L25/51 G10L25/81
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L25/00
不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术
G10L25/03
以提取参数类型为特征的
G10L25/24
提取参数的倒谱
法律状态
2022-05-27 :
授权
2021-04-13 :
实质审查的生效
IPC(主分类) : G10L 25/24
申请日 : 20201027
申请日 : 20201027
2021-03-26 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载