一种基于上下文Transformer网络的细粒度视频-文本检索方法

一种基于上下文Transformer网络的细粒度视频-文...

实质审查的生效

摘要

一种基于上下文Transformer网络的细粒度视频‑文本检索方法，包括S1.获得视频数据的全局层级特征、局部物体层级特征和局部动作层级特征；S2.将全局层级特征、局部物体层级特征和局部动作层级特征进行不同层级特征之间的上下文信息编码；S3.将文本的全局特征、名词特征、动词特征输入到基于注意力机制的图推理模型中，得到文本数据的细粒度层级特征；以及S4.将细粒度层级特征输入多层级跨模态匹配模块进行相似度计算。本发明方法在跨模态视频‑文本检索任务上取得更好的性能。

基本信息

专利标题：

一种基于上下文Transformer网络的细粒度视频-文本检索方法

专利标题（英）：

暂无

公开（公告）号：

CN114282060A

申请号：

CN202111613304.1

公开（公告）日：

2022-04-05

申请日：

2021-12-27

授权号：

暂无

授权日：

暂无

发明人：

李革陈明亮任俞睿

申请人：

北京大学深圳研究生院

申请人地址：

广东省深圳市南山区西丽镇丽水路深圳大学城北大校区

代理机构：

北京京万通知识产权代理有限公司

代理人：

万学堂

优先权：

CN202111613304.1

主分类号：

G06F16/783

IPC分类号：

G06F16/783 G06F40/126

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F16/783

•••使用自动从内容生成的元数据

法律状态

2022-04-22 ：

实质审查的生效

IPC(主分类) : G06F 16/783
申请日 : 20211227

2022-04-05 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载