一种音频驱动人脸动画生成方法、装置、设备与介质

授权

摘要

本发明公开了一种音频驱动人脸动画生成方法、装置、设备和介质，该方法包括以下步骤：步骤1，采集语音信号，提取MFCC特征并输入音素识别器，获得语音的音素分类概率；步骤2，将音素分类概率输入Embedding层，得到音素的Embedding编码；步骤3，将音素的Embedding编码输入表情预测器，得到3D人脸的顶点位移；步骤4，将3D人脸顶点位移与自然表情的人脸模板相加，得到带说话表情的3D人脸；步骤5，将连续时间内的3D人脸渲染为2D图像，生成动画视频。本发明将发音和人脸表情直接关联，能够识别全球超2000种语言，具有更强的泛化能力，同时，可以为不同语言的动画进行配音，大大降低动画制作成本。

基本信息

专利标题：

一种音频驱动人脸动画生成方法、装置、设备与介质

专利标题（英）：

暂无

公开（公告）号：

CN113838174A

申请号：

CN202111412881.4

公开（公告）日：

2021-12-24

申请日：

2021-11-25

授权号：

CN113838174B

授权日：

2022-06-10

发明人：

刘逸颖李太豪郑书凯阮玉平

申请人：

之江实验室

申请人地址：

浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼

代理机构：

杭州浙科专利事务所(普通合伙)

代理人：

孙孟辉

优先权：

CN202111412881.4

主分类号：

G06T13/20

IPC分类号：

G06T13/20 G06T13/40

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06T

一般的图像数据处理或产生

G06T13/00

动画制作

G06T13/20

3D动画

法律状态

2022-06-10 ：

授权

2022-01-11 ：

实质审查的生效

IPC(主分类) : G06T 13/20
申请日 : 20211125

2021-12-24 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载