支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统

支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识...

授权

摘要

本发明公开一种支持多唤醒词的说话人识别方法，其包括构建用于说话人识别的神经网络模型，并对构建的神经网络模型进行训练；对注册音频，利用训练好的神经网络模型的主干部分提取出其对应的中间表示存储；在获取到实时音频数据时，通过训练好的神经网络模型提取出实时音频数据的中间表示，并将其与注册音频的中间表示进行对比，以确定实时音频的说话人与注册音频是否相同。根据本发明公开的方案不但能够实现支持多唤醒词的说话人识别，而且能够避免针对不同的唤醒词均收集很多训练数据的限制，同时也避免了训练和存储多个模型的弊端，实现多个唤醒词共用一个神经网络模型进行准确的说话人识别，降低了多个特定唤醒词说话人识别系统的实现成本。

基本信息

专利标题：

支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统

专利标题（英）：

暂无

公开（公告）号：

CN111243604A

申请号：

CN202010032282.9

公开（公告）日：

2020-06-05

申请日：

2020-01-13

授权号：

CN111243604B

授权日：

2022-05-10

发明人：

项煦黄厚军钱彦旻

申请人：

苏州思必驰信息科技有限公司

申请人地址：

江苏省苏州市苏州工业园区新平街388号腾飞创新园14栋

代理机构：

北京商专永信知识产权代理事务所(普通合伙)

代理人：

黄谦

优先权：

CN202010032282.9

主分类号：

G10L17/04

IPC分类号：

G10L17/04 G10L17/08 G10L17/18 G10L15/22 G10L15/16 G10L15/06 G06N3/08 G06N3/04 G06K9/62