基于神经辐射场的高质量人脸语音驱动方法
授权
摘要
本发明提供了一种基于神经辐射场的高质量人脸语音驱动方法,包括以下步骤:利用基于文本的语音识别模型对视频同步的语音信息进行特征提取,获得提取后的语音特征;对初始人脸说话视频集合逐帧进行分割;使用预训练好的三维人脸重建模型估计每帧人脸的姿态信息;利用多层感知器学习针对目标图片的神经辐射场模型;将所述语音特征作为条件信息,采用神经渲染的方式生成当前视角及语音条件下的图片。由基于神经辐射场训练的人脸说话模型,具有隐式表示三维人脸人体位移,包括刚性和非刚性运动的能力。由于神经渲染支持不同射线角度和不同密度的采样设置,其生成的人脸说话视频具有高质量且稳定的特点。
基本信息
专利标题 :
基于神经辐射场的高质量人脸语音驱动方法
专利标题(英):
暂无
公开(公告)号 :
CN112887698A
申请号 :
CN202110158687.1
公开(公告)日 :
2021-06-01
申请日 :
2021-02-04
授权号 :
CN112887698B
授权日 :
2022-05-17
发明人 :
张举勇郭玉东陈柯宇
申请人 :
中国科学技术大学
申请人地址 :
安徽省合肥市包河区金寨路96号
代理机构 :
中科专利商标代理有限责任公司
代理人 :
孙蕾
优先权 :
CN202110158687.1
主分类号 :
H04N13/275
IPC分类号 :
H04N13/275 H04N13/296 G06K9/00 G06K9/34 G06N3/04 G06N3/08 G10L15/02 G10L15/06 G10L15/16 G10L15/25 G10L15/26 H04N5/272
法律状态
2022-05-17 :
授权
2021-06-18 :
实质审查的生效
IPC(主分类) : H04N 13/275
申请日 : 20210204
申请日 : 20210204
2021-06-01 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载