基于注意力机制的多模态信息融合识别方法及系统

实质审查的生效

摘要

本发明涉及一种基于注意力机制的多模态信息融合识别方法及系统。该方法及系统首先对人体动作的RGB和depth视频帧序列进行压缩表示，生成整个视频的时空信息表示图；然后分别将RGB和depth的时空表示图输入双流深度卷积网络提取其高层语义特征；之后将这两种模态的特征输入注意力信息融合模块得到两个不同的多模态融合特征表示；最后将这两个多模态特征向量相加或拼接操作整合成一个特征向量，通过全连接层和softmax函数分类，得到待测视频中的所属动作类，能够有效地利用RGB和depth数据的互补信息，产生语义丰富的多模态特征表示，极大地提高人体动作识别的准确率和抗干扰能力。

基本信息

专利标题：

基于注意力机制的多模态信息融合识别方法及系统

专利标题（英）：

暂无

公开（公告）号：

CN114332573A

申请号：

CN202111557072.2

公开（公告）日：

2022-04-12

申请日：

2021-12-18

授权号：

暂无

授权日：

暂无

发明人：

刘桢程俊任子良宋呈群张锲石

申请人：

中国科学院深圳先进技术研究院

申请人地址：

广东省深圳市南山区深圳大学城学苑大道1068号

代理机构：

深圳市科进知识产权代理事务所(普通合伙)

代理人：

刘建伟

优先权：

CN202111557072.2

主分类号：

G06V10/80

IPC分类号：

G06V10/80 G06V10/764 G06V10/82 G06K9/62 G06N3/04 G06N3/08

法律状态

2022-04-29 ：

实质审查的生效

IPC(主分类) : G06V 10/80
申请日 : 20211218

2022-04-12 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载