一种基于语音识别的视频中音频流替换方法

授权

摘要

本发明公开了一种基于语音识别的视频中音频流替换方法。所述方法为：首先通过对音频进行端点检测得到音频中人说的前后端点，然后对音频进行降噪提取特征值，再通过声音模型和语言模型进行语音识别，然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成，实现视频中的音频流替换过程。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间，得到识别结果中每个字在音频中的起始时间与结束时间，通过计算使得视频中音频流替换更加科学准确，可以在语音识别效果检测和视频制作领域起到巨大作用。

基本信息

专利标题：

一种基于语音识别的视频中音频流替换方法

专利标题（英）：

暂无

公开（公告）号：

CN113179442A

申请号：

CN202110425839.X

公开（公告）日：

2021-07-27

申请日：

2021-04-20

授权号：

CN113179442B

授权日：

2022-04-29

发明人：

徐浩然沈童潘晨高张鑫晟王英钒高飞

申请人：

浙江工业大学

申请人地址：

浙江省杭州市拱墅区朝晖六区潮王路18号

代理机构：

杭州浙科专利事务所(普通合伙)

代理人：

周红芳

优先权：

CN202110425839.X

主分类号：

H04N21/43

IPC分类号：

H04N21/43 H04N21/439 H04N5/262 H04N5/04 G10L15/26 G10L25/24 G10L25/57 G10L25/51 G10L21/043 G10L21/0208