一种基于特征差异最大化的说话人识别方法
公开
摘要

本发明公开了一种基于特征差异最大化的说话人识别方法,使得说话人特征差异最大化,增加区分性。降低说话人识别系统的错误率。首先将训练集集的全部音频文件进行预处理,生成语谱图特征。将语谱图特征作为VGG‑M的输入,生成嵌入特征(embedding)。然后使用NPLDA打分选取三元组语音对,使用NPLDA的目标函数训练NPLDA模型,使用互信息损失函数计算正负样本对的损失,与NPLDA共同训练VGG‑M网络。在测试阶段,使用训练好的网络提取测试说话人和目标说话人的嵌入特征。使用余弦打分计算两种嵌入特征的相似度,即相似度得分。将计算好的相似度得分与设置好的阈值进行比较,判断是否语音来自同一说话人。该方法通过NPLDA选取三元组对,使得不同说话人特征差异更明显,并利用互信息损失函数和NPLDA共同优化网络,降低识别的错误率。本发明可以应用于说话人识别领域。

基本信息
专利标题 :
一种基于特征差异最大化的说话人识别方法
专利标题(英):
暂无
公开(公告)号 :
CN114613369A
申请号 :
CN202210221405.2
公开(公告)日 :
2022-06-10
申请日 :
2022-03-07
授权号 :
暂无
授权日 :
暂无
发明人 :
陈晨季超群李文文何勇军陈德运
申请人 :
哈尔滨理工大学
申请人地址 :
黑龙江省哈尔滨市南岗区学府路52号
代理机构 :
代理人 :
优先权 :
CN202210221405.2
主分类号 :
G10L17/04
IPC分类号 :
G10L17/04  G10L17/02  G10L25/18  G10L25/30  G10L25/45  
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L17/00
讲话者辨认或验证
G10L17/04
训练,登记或模型的建立
法律状态
2022-06-10 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332