语音合成方法、装置、电子设备及计算机可读存储介质

公开

摘要

本申请实施例提供了一种语音合成方法、装置、电子设备及计算机可读存储介质，涉及人工智能、多媒体、语音合成及云技术领域。该方法包括：对待处理视频中各目标对象对应的唇部图像序列分别进行特征提取，得到个目标对象的唇语特征；对于每个目标对象，基于该目标对象的唇语特征，通过第一语音内容预测网络预测该目标对象的语音内容特征；提取每个目标对象的参考语音数据的音色特征；对于每个目标对象，根据该目标对象的语音内容特征和音色特征，通过音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于待处理视频的目标语音数据。基于本申请实施例提供的该方法，能够基于视频生成高质量的语音数据。

基本信息

专利标题：

语音合成方法、装置、电子设备及计算机可读存储介质

专利标题（英）：

暂无

公开（公告）号：

CN114360491A

申请号：

CN202111642741.6

公开（公告）日：

2022-04-15

申请日：

2021-12-29

授权号：

暂无

授权日：

暂无

发明人：

王迪松阳珊苏丹俞栋

申请人：

腾讯科技（深圳）有限公司

申请人地址：

广东省深圳市南山区高新区科技中一路腾讯大厦35层

代理机构：

北京市立方律师事务所

代理人：

张筱宁

优先权：

CN202111642741.6

主分类号：

G10L13/027

IPC分类号：

G10L13/027 G10L13/08 G10L25/30 G06N3/08

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L13/00

语音合成；文本-语音合成系统

G10L13/02

产生合成语音的方法；语音合成设备

G10L13/027

概念－语音合成；从基于机器的概念产生自然词语

法律状态

2022-04-15 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载