基于混合注意力机制的视频对象定位方法及系统

授权

摘要

本发明提出了基于混合注意力机制的视频对象定位方法及系统，本发明属于视频处理技术领域，包括：获得视频数据以及自然语言描述数据；针对视频数据，提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征；针对自然语言描述数据，提取词隐藏向量表示，利用文本自注意力机制处理词隐藏向量表示，获取语义角色文本特征；针对提取对象提议的视觉特征，剔除每个对象提议中不被语义角色文本特征中的语义角色期待的特征表示，获得被增强的对象提议的视觉特征；对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合，获得多模态特征；对多模态特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，进行视频对象定位。

基本信息

专利标题：

基于混合注意力机制的视频对象定位方法及系统

专利标题（英）：

暂无

公开（公告）号：

CN113971208A

申请号：

CN202111577033.9

公开（公告）日：

2022-01-25

申请日：

2021-12-22

授权号：

CN113971208B

授权日：

2022-05-06

发明人：

刘萌周迪田传发齐孟津郭杰马玉玲

申请人：

山东建筑大学

申请人地址：

山东省济南市历城区临港开发区凤鸣路1000号

代理机构：

济南圣达知识产权代理有限公司

代理人：

李圣梅

优先权：

CN202111577033.9

主分类号：

G06F16/33

IPC分类号：

G06F16/33 G06F16/75 G06F16/78 G06F16/783 G06F40/30

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F16/33

••查询

法律状态

2022-05-06 ：

授权

2022-02-15 ：

实质审查的生效

IPC(主分类) : G06F 16/33
申请日 : 20211222

2022-01-25 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载