端到端即文本到视频的视频合成方法、系统介质及应用
实质审查的生效
摘要
本发明属于图像数据处理技术领域,公开了一种端到端即文本到视频的视频合成方法、系统、介质及应用,包括:构建基于espnet2框架的语音合成模型,基于专业级人声数据库对构建的语音合成模型进行训练,并利用训练好的语音合成模型进行语音合成;采用3DMM方法,在BFM数据库给定的人脸顶点坐标上,运用图形学技术进行渲染,生成人脸图像;通过face_alignment模型对3D人脸识别进行人脸模型的数据采集;利用LSTM根据唇部动作得到人脸特征后,将唇部动作和语音文字结合,进行唇形预测;利用GAN网络进行视频合成。本发明效率更高,资源占用更低。
基本信息
专利标题 :
端到端即文本到视频的视频合成方法、系统介质及应用
专利标题(英):
暂无
公开(公告)号 :
CN114338959A
申请号 :
CN202110406372.4
公开(公告)日 :
2022-04-12
申请日 :
2021-04-15
授权号 :
暂无
授权日 :
暂无
发明人 :
徐涛杨洲石青松李梓甜
申请人 :
西安汉易汉网络科技股份有限公司
申请人地址 :
陕西省西安市碑林区太乙路陕西日报社综合服务楼208—1
代理机构 :
北京汇彩知识产权代理有限公司
代理人 :
董丽萍
优先权 :
CN202110406372.4
主分类号 :
H04N5/222
IPC分类号 :
H04N5/222 H04N5/262 G10L21/10 G10L21/18 G10L13/04 G10L13/047 G06T13/20 G06T13/40 G06T17/00 G06K9/00 G06N3/04 G06N5/04 H04N21/81
法律状态
2022-04-29 :
实质审查的生效
IPC(主分类) : H04N 5/222
申请日 : 20210415
申请日 : 20210415
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载