说话人识别方法、装置、电子设备及存储介质

授权

摘要

本申请提出一种说话人识别方法、装置、电子设备及存储介质。具体实现方案为：将目标音频文件和待识别音频文件分别分割成多个音频单元；从每个音频单元提取对应的音频特征，得到目标音频文件的音频特征序列和待识别音频文件的音频特征序列；利用孪生神经网络对目标音频文件的音频特征序列和待识别音频文件的音频特征序列进行特征学习，得到目标音频文件对应的特征向量和待识别音频文件中的多个音频单元各自对应的特征向量；基于目标音频文件对应的特征向量和待识别音频文件中的多个音频单元各自对应的特征向量，利用基于注意力机制的机器学习模型识别待识别音频文件中属于目标说话人的音频单元。利用本申请实施例能够提高说话人识别精度。

基本信息

专利标题：

说话人识别方法、装置、电子设备及存储介质

专利标题（英）：

暂无

公开（公告）号：

CN111785287A

申请号：

CN202010641026.X

公开（公告）日：

2020-10-16

申请日：

2020-07-06

授权号：

CN111785287B

授权日：

2022-06-07

发明人：

李航丁文彪刘子韬

申请人：

北京世纪好未来教育科技有限公司

申请人地址：

北京市海淀区中关村大街32号蓝天和盛大厦1702-03室

代理机构：

北京市铸成律师事务所

代理人：

邓海鸿

优先权：

CN202010641026.X

主分类号：

G10L17/18

IPC分类号：

G10L17/18 G10L17/02

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L17/00

讲话者辨认或验证

G10L17/18

人工神经网络，连接方法

法律状态

2022-06-07 ：

授权

2020-11-03 ：

实质审查的生效

IPC(主分类) : G10L 17/18
申请日 : 20200706

2020-10-16 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载