一种说话人角色识别模型、方法、装置及存储介质

公开

摘要

本发明公开了一种说话人角色识别模型、方法、装置及存储介质，该模型包括：依次连接多个残差层，每个残差层包括依次连接的深度可分离卷积层、批归一化层、激活函数层以及标准卷积层，残差层用于对待识别音频进行特征提取；全局平均池化层，用于接收残差层输出的数据进行统一；全连接层，用于接收所述全局平均池化层输出的数据进行分类，确定音频属于对应说话人角色的概率。通过实施本发明，在模型中设置残差层、全局平均池化层以及全连接层，可以实现对音频的说话人角色识别分类，解决了现有技术中无法实现说话人角色识别的技术问题。

基本信息

专利标题：

一种说话人角色识别模型、方法、装置及存储介质

专利标题（英）：

暂无

公开（公告）号：

CN114627883A

申请号：

CN202011471497.7

公开（公告）日：

2022-06-14

申请日：

2020-12-11

授权号：

暂无

授权日：

暂无

发明人：

龚科郑国林

申请人：

暗物智能科技(广州)有限公司

申请人地址：

广东省广州市南沙区金隆路37号16层整层（仅限办公）

代理机构：

北京三聚阳光知识产权代理有限公司

代理人：

李红团

优先权：

CN202011471497.7

主分类号：

G10L17/06

IPC分类号：

G10L17/06 G10L17/18

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L17/00

讲话者辨认或验证

G10L17/06

决策方法，模式适配策略

法律状态

2022-06-14 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载