一种可视化人声分离系统、方法以及装置

实质审查的生效

摘要

本发明属于人工智能人声分离技术领域，特别涉及一种可视化人声分离系统、方法以及装置，该方法包括打开可视化人声分离系统，把要分离的音/视频文件导入系统中；把音/视频转换成和人声分离算法相匹配的音频格式；把要处理的音频文件进行逻辑切分，按时间先后顺序进行分句，最终形成每句话包含说话人名称、开始时间和结束时间的json文件；把分离后的结果在界面上进行展示，音频文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分；在结果展示界面进行每句话的播放和调整，实现精准人声分离；把分离好的人声分句，根据需求进行选中导出。本发明在人工智能人声分离算法基础上，进行界面可视化的手动调整，达到精准人声分离效果。

基本信息

专利标题：

一种可视化人声分离系统、方法以及装置

专利标题（英）：

暂无

公开（公告）号：

CN114464198A

申请号：

CN202111437237.2

公开（公告）日：

2022-05-10

申请日：

2021-11-30

授权号：

暂无

授权日：

暂无

发明人：

屈丹杨绪魁李静涛闫红刚李喜坤陈琦邱泽宇

申请人：

中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院

申请人地址：

河南省郑州市高新区科学大道62号

代理机构：

郑州大通专利商标代理有限公司

代理人：

石丹丹

优先权：

CN202111437237.2

主分类号：

G10L17/22

IPC分类号：

G10L17/22 G10L21/10 G10L25/24 G06F16/11 G06F16/16

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L17/00

讲话者辨认或验证

G10L17/22

交互程序，人-机界面

法律状态

2022-05-27 ：

实质审查的生效

IPC(主分类) : G10L 17/22
申请日 : 20211130

2022-05-10 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载