一种基于特征差异最大化的说话人识别方法

公开

摘要

本发明公开了一种基于特征差异最大化的说话人识别方法，使得说话人特征差异最大化，增加区分性。降低说话人识别系统的错误率。首先将训练集集的全部音频文件进行预处理，生成语谱图特征。将语谱图特征作为VGG‑M的输入，生成嵌入特征(embedding)。然后使用NPLDA打分选取三元组语音对，使用NPLDA的目标函数训练NPLDA模型，使用互信息损失函数计算正负样本对的损失，与NPLDA共同训练VGG‑M网络。在测试阶段，使用训练好的网络提取测试说话人和目标说话人的嵌入特征。使用余弦打分计算两种嵌入特征的相似度，即相似度得分。将计算好的相似度得分与设置好的阈值进行比较，判断是否语音来自同一说话人。该方法通过NPLDA选取三元组对，使得不同说话人特征差异更明显，并利用互信息损失函数和NPLDA共同优化网络，降低识别的错误率。本发明可以应用于说话人识别领域。

基本信息

专利标题：

一种基于特征差异最大化的说话人识别方法

专利标题（英）：

暂无

公开（公告）号：

CN114613369A

申请号：

CN202210221405.2

公开（公告）日：

2022-06-10

申请日：

2022-03-07

授权号：

暂无

授权日：

暂无

发明人：

陈晨季超群李文文何勇军陈德运

申请人：

哈尔滨理工大学

申请人地址：

黑龙江省哈尔滨市南岗区学府路52号

代理机构：

代理人：

优先权：

CN202210221405.2

主分类号：

G10L17/04

IPC分类号：

G10L17/04 G10L17/02 G10L25/18 G10L25/30 G10L25/45

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L17/00

讲话者辨认或验证

G10L17/04

训练，登记或模型的建立

法律状态

2022-06-10 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载