一种基于视觉驱动的文本转语音的方法
实质审查的生效
摘要

本发明提供一种基于视觉驱动的文本转语音的方法,属于文本转语音技术领域,本发明将文本转语音模型的输入扩展为不仅输入文本,而且输入面部视频,生成并输出与视频帧相匹配的语音,生成的音频不仅仅与视频同步,而且保留了与视频相同的韵律与停顿,并且可以从视频信号中推断停顿与声音的变化,该方法可以应用于制作高质量的拼音视频,而无需耗费大量的人力物力在专业环境中重新录制配音。给定说话者的文本和对应的视频帧,模型经过训练,模型并不是只关注嘴巴的区域,而是提取全脸的视觉信息语文本信息相匹配,从而生成语音。

基本信息
专利标题 :
一种基于视觉驱动的文本转语音的方法
专利标题(英):
暂无
公开(公告)号 :
CN114283784A
申请号 :
CN202111609326.0
公开(公告)日 :
2022-04-05
申请日 :
2021-12-27
授权号 :
暂无
授权日 :
暂无
发明人 :
王雯哲高岩郝虹王建华
申请人 :
山东新一代信息产业技术研究院有限公司
申请人地址 :
山东省济南市高新区港兴三路北段未来创业广场3号楼11-12层
代理机构 :
济南信达专利事务所有限公司
代理人 :
阚恭勇
优先权 :
CN202111609326.0
主分类号 :
G10L13/027
IPC分类号 :
G10L13/027  G10L13/08  G10L19/16  G10L25/30  G06N3/04  G06N3/08  
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L13/00
语音合成;文本-语音合成系统
G10L13/02
产生合成语音的方法;语音合成设备
G10L13/027
概念-语音合成;从基于机器的概念产生自然词语
法律状态
2022-04-22 :
实质审查的生效
IPC(主分类) : G10L 13/027
申请日 : 20211227
2022-04-05 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332