一种第一视角视频动作识别方法及装置

公开

摘要

本发明提供了一种第一视角视频动作识别方法和装置，构建第一视角动作识别的多流网络模型，模型包括卷积神经网络CNN、Transformer网络等。模型采用RGB模态及深度模态，分为三个阶段进行动作分类，通过在ImageNet上预训练的卷积神经网络提取视频帧的双尺度特征，根据不同模态、不同尺度特征图各自的特点，分别采取不同的帧内分割方式，结合相关性计算机制增强空间表征，提高空间语义信息，通过多尺度跨模态融合模块的相互作用，产生交叉模态表示，增强模态间的互相关性；基于注意力机制，提取视频帧间的时序信息；融合经过空间交互增强的双模态数据，有效利用并融合双模态的时空信息，可以达到较好的动作识别效果。

基本信息

专利标题：

一种第一视角视频动作识别方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN114596520A

申请号：

CN202210120923.5

公开（公告）日：

2022-06-07

申请日：

2022-02-09

授权号：

暂无

授权日：

暂无

发明人：

聂梦真姜金印

申请人：

天津大学

申请人地址：

天津市南开区卫津路92号

代理机构：

天津盛理知识产权代理有限公司

代理人：

陈娟

优先权：

CN202210120923.5

主分类号：

G06V20/40

IPC分类号：

G06V20/40 G06K9/62 G06N3/04 G06N3/08 G06V10/80 G06V10/26 G06V10/82

法律状态

2022-06-07 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载