基于bottleneck和通道切分的轻量级说话人识别方法及系统

基于bottleneck和通道切分的轻量级说话人识别方法...

授权

摘要

本发明提供一种基于bottleneck和通道切分的轻量级说话人识别方法及系统，基于bottleneck和通道切分构建基于深度神经网络的说话人识别模型，所述说话人识别模型的网络框架包括轻量级说话人识别网络主体和说话人识别模型池化模块，语音特征首先作为轻量级说话人识别网络主体的输入，输出为不定长的特征，将其作为说话人识别模型池化模块处理后，生成定长的说话人嵌入；使用知识蒸馏进一步提高模型准确率，包括对基于说话人识别模型实现的教师模型进行预训练，定义知识蒸馏的损失函数，使用知识蒸馏训练轻量级的学生网络模型，根据训练结果实现说话人识别。与现有技术相比，本发明可以解决在小型的算力非常有限的嵌入式设备应用场景下的说话人识别任务。

基本信息

专利标题：

基于bottleneck和通道切分的轻量级说话人识别方法及系统

专利标题（英）：

暂无

公开（公告）号：

CN114220438A

申请号：

CN202210160392.2

公开（公告）日：

2022-03-22

申请日：

2022-02-22

授权号：

CN114220438B

授权日：

2022-05-13

发明人：

蔡林君杨玉红陈旭峰陈弘扬涂卫平艾浩军

申请人：

武汉大学

申请人地址：

湖北省武汉市武昌区珞珈山武汉大学

代理机构：

武汉科皓知识产权代理事务所(特殊普通合伙)

代理人：

严彦

优先权：

CN202210160392.2

主分类号：

G10L17/02

IPC分类号：

G10L17/02 G10L17/04 G10L17/18

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L17/00

讲话者辨认或验证

G10L17/02

预处理操作，例如：片断选择；模式表示或模拟，例如基于线性判别式分析或主要部件；特征选择或提取

法律状态

2022-05-13 ：

授权

2022-04-08 ：

实质审查的生效

IPC(主分类) : G10L 17/02
申请日 : 20220222

2022-03-22 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载