一种基于视觉驱动的文本转语音的方法

实质审查的生效

摘要

本发明提供一种基于视觉驱动的文本转语音的方法，属于文本转语音技术领域，本发明将文本转语音模型的输入扩展为不仅输入文本，而且输入面部视频，生成并输出与视频帧相匹配的语音，生成的音频不仅仅与视频同步，而且保留了与视频相同的韵律与停顿，并且可以从视频信号中推断停顿与声音的变化，该方法可以应用于制作高质量的拼音视频，而无需耗费大量的人力物力在专业环境中重新录制配音。给定说话者的文本和对应的视频帧，模型经过训练，模型并不是只关注嘴巴的区域，而是提取全脸的视觉信息语文本信息相匹配，从而生成语音。

基本信息

专利标题：

一种基于视觉驱动的文本转语音的方法

专利标题（英）：

暂无

公开（公告）号：

CN114283784A

申请号：

CN202111609326.0

公开（公告）日：

2022-04-05

申请日：

2021-12-27

授权号：

暂无

授权日：

暂无

发明人：

王雯哲高岩郝虹王建华

申请人：

山东新一代信息产业技术研究院有限公司

申请人地址：

山东省济南市高新区港兴三路北段未来创业广场3号楼11-12层

代理机构：

济南信达专利事务所有限公司

代理人：

阚恭勇

优先权：

CN202111609326.0

主分类号：

G10L13/027

IPC分类号：

G10L13/027 G10L13/08 G10L19/16 G10L25/30 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L13/00

语音合成；文本-语音合成系统

G10L13/02

产生合成语音的方法；语音合成设备

G10L13/027

概念－语音合成；从基于机器的概念产生自然词语

法律状态

2022-04-22 ：

实质审查的生效

IPC(主分类) : G10L 13/027
申请日 : 20211227

2022-04-05 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载