基于transformer框架的多通道声纹识别方法及装置、设备

基于transformer框架的多通道声纹识别方法及装置...

实质审查的生效

摘要

本发明公开了一种基于transformer框架的多通道声纹识别方法及装置、设备，该方法包括：将待识别的音频信息进行声源分解，再通过短时傅里叶变换得到三通道频谱图Ⅰ；对同一组三通道频谱图Ⅰ分别同时进行转置、填补或截断，得到两组三通道频谱图Ⅱ；将两组三通道频谱图Ⅱ输入至改进的LeViT神经网络模型中，并利用改进的LeViT神经网络模型对音频信息的声纹进行识别处理输出音频信息的声纹识别信息，声纹识别信息至少包括音频信息对应的说话者。通过本发明提供的方法，通过对音频信息进行处理，得到了多个通道的音频信号，从而起到识别音频的准确率更高的作用；且通过改进的LeViT神经网络模型可更准确的识别音频信号，增加了模型的复杂度，使得准确率有大幅度的提升。

基本信息

专利标题：

基于transformer框架的多通道声纹识别方法及装置、设备

专利标题（英）：

暂无

公开（公告）号：

CN114446308A

申请号：

CN202111682904.3

公开（公告）日：

2022-05-06

申请日：

2021-12-31

授权号：

暂无

授权日：

暂无

发明人：

潘文安谢悦皎

申请人：

香港中文大学（深圳）

申请人地址：

广东省深圳市龙岗区龙城街道龙翔大道2001号

代理机构：

深圳市欣亚知识产权代理事务所(普通合伙)

代理人：

葛勤

优先权：

CN202111682904.3

主分类号：

G10L17/02

IPC分类号：

G10L17/02 G10L17/18 G10L17/04 G10L25/18 G10L25/45

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L17/00

讲话者辨认或验证

G10L17/02

预处理操作，例如：片断选择；模式表示或模拟，例如基于线性判别式分析或主要部件；特征选择或提取

法律状态

2022-05-24 ：

实质审查的生效

IPC(主分类) : G10L 17/02
申请日 : 20211231

2022-05-06 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载