端到端即文本到视频的视频合成方法、系统介质及应用

实质审查的生效

摘要

本发明属于图像数据处理技术领域，公开了一种端到端即文本到视频的视频合成方法、系统、介质及应用，包括：构建基于espnet2框架的语音合成模型，基于专业级人声数据库对构建的语音合成模型进行训练，并利用训练好的语音合成模型进行语音合成；采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像；通过face_alignment模型对3D人脸识别进行人脸模型的数据采集；利用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合，进行唇形预测；利用GAN网络进行视频合成。本发明效率更高，资源占用更低。

基本信息

专利标题：

端到端即文本到视频的视频合成方法、系统介质及应用

专利标题（英）：

暂无

公开（公告）号：

CN114338959A

申请号：

CN202110406372.4

公开（公告）日：

2022-04-12

申请日：

2021-04-15

授权号：

暂无

授权日：

暂无

发明人：

徐涛杨洲石青松李梓甜

申请人：

西安汉易汉网络科技股份有限公司

申请人地址：

陕西省西安市碑林区太乙路陕西日报社综合服务楼208—1

代理机构：

北京汇彩知识产权代理有限公司

代理人：

董丽萍

优先权：

CN202110406372.4

主分类号：

H04N5/222

IPC分类号：

H04N5/222 H04N5/262 G10L21/10 G10L21/18 G10L13/04 G10L13/047 G06T13/20 G06T13/40 G06T17/00 G06K9/00 G06N3/04 G06N5/04 H04N21/81

法律状态

2022-04-29 ：

实质审查的生效

IPC(主分类) : H04N 5/222
申请日 : 20210415

2022-04-12 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载