基于神经辐射场的高质量人脸语音驱动方法
授权
摘要

本发明提供了一种基于神经辐射场的高质量人脸语音驱动方法,包括以下步骤:利用基于文本的语音识别模型对视频同步的语音信息进行特征提取,获得提取后的语音特征;对初始人脸说话视频集合逐帧进行分割;使用预训练好的三维人脸重建模型估计每帧人脸的姿态信息;利用多层感知器学习针对目标图片的神经辐射场模型;将所述语音特征作为条件信息,采用神经渲染的方式生成当前视角及语音条件下的图片。由基于神经辐射场训练的人脸说话模型,具有隐式表示三维人脸人体位移,包括刚性和非刚性运动的能力。由于神经渲染支持不同射线角度和不同密度的采样设置,其生成的人脸说话视频具有高质量且稳定的特点。

基本信息
专利标题 :
基于神经辐射场的高质量人脸语音驱动方法
专利标题(英):
暂无
公开(公告)号 :
CN112887698A
申请号 :
CN202110158687.1
公开(公告)日 :
2021-06-01
申请日 :
2021-02-04
授权号 :
CN112887698B
授权日 :
2022-05-17
发明人 :
张举勇郭玉东陈柯宇
申请人 :
中国科学技术大学
申请人地址 :
安徽省合肥市包河区金寨路96号
代理机构 :
中科专利商标代理有限责任公司
代理人 :
孙蕾
优先权 :
CN202110158687.1
主分类号 :
H04N13/275
IPC分类号 :
H04N13/275  H04N13/296  G06K9/00  G06K9/34  G06N3/04  G06N3/08  G10L15/02  G10L15/06  G10L15/16  G10L15/25  G10L15/26  H04N5/272  
法律状态
2022-05-17 :
授权
2021-06-18 :
实质审查的生效
IPC(主分类) : H04N 13/275
申请日 : 20210204
2021-06-01 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332