一种说话人角色识别模型、方法、装置及存储介质
公开
摘要
本发明公开了一种说话人角色识别模型、方法、装置及存储介质,该模型包括:依次连接多个残差层,每个残差层包括依次连接的深度可分离卷积层、批归一化层、激活函数层以及标准卷积层,残差层用于对待识别音频进行特征提取;全局平均池化层,用于接收残差层输出的数据进行统一;全连接层,用于接收所述全局平均池化层输出的数据进行分类,确定音频属于对应说话人角色的概率。通过实施本发明,在模型中设置残差层、全局平均池化层以及全连接层,可以实现对音频的说话人角色识别分类,解决了现有技术中无法实现说话人角色识别的技术问题。
基本信息
专利标题 :
一种说话人角色识别模型、方法、装置及存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114627883A
申请号 :
CN202011471497.7
公开(公告)日 :
2022-06-14
申请日 :
2020-12-11
授权号 :
暂无
授权日 :
暂无
发明人 :
龚科郑国林
申请人 :
暗物智能科技(广州)有限公司
申请人地址 :
广东省广州市南沙区金隆路37号16层整层(仅限办公)
代理机构 :
北京三聚阳光知识产权代理有限公司
代理人 :
李红团
优先权 :
CN202011471497.7
主分类号 :
G10L17/06
IPC分类号 :
G10L17/06 G10L17/18
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L17/00
讲话者辨认或验证
G10L17/06
决策方法,模式适配策略
法律状态
2022-06-14 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载