基于神经辐射场的高质量人脸语音驱动方法

授权

摘要

本发明提供了一种基于神经辐射场的高质量人脸语音驱动方法，包括以下步骤：利用基于文本的语音识别模型对视频同步的语音信息进行特征提取，获得提取后的语音特征；对初始人脸说话视频集合逐帧进行分割；使用预训练好的三维人脸重建模型估计每帧人脸的姿态信息；利用多层感知器学习针对目标图片的神经辐射场模型；将所述语音特征作为条件信息，采用神经渲染的方式生成当前视角及语音条件下的图片。由基于神经辐射场训练的人脸说话模型，具有隐式表示三维人脸人体位移，包括刚性和非刚性运动的能力。由于神经渲染支持不同射线角度和不同密度的采样设置，其生成的人脸说话视频具有高质量且稳定的特点。

基本信息

专利标题：

基于神经辐射场的高质量人脸语音驱动方法

专利标题（英）：

暂无

公开（公告）号：

CN112887698A

申请号：

CN202110158687.1

公开（公告）日：

2021-06-01

申请日：

2021-02-04

授权号：

CN112887698B

授权日：

2022-05-17

发明人：

张举勇郭玉东陈柯宇

申请人：

中国科学技术大学

申请人地址：

安徽省合肥市包河区金寨路96号

代理机构：

中科专利商标代理有限责任公司

代理人：

孙蕾

优先权：

CN202110158687.1

主分类号：

H04N13/275

IPC分类号：

H04N13/275 H04N13/296 G06K9/00 G06K9/34 G06N3/04 G06N3/08 G10L15/02 G10L15/06 G10L15/16 G10L15/25 G10L15/26 H04N5/272

法律状态

2022-05-17 ：

授权

2021-06-18 ：

实质审查的生效

IPC(主分类) : H04N 13/275
申请日 : 20210204

2021-06-01 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载