基于多模态特征融合的高效视频检索模型

公开

摘要

本文提出了一种视频检索框架，其包括：视频编码器，其获得输入视频的视频特征表示，包括：多个NetVLAD网络，每个NetVLAD网络包括卷积神经网络(CNN)和NetVLAD层，联接器，其接收所述多个NetVLAD网络的输出，全连接网络，其接收所述联接器的输出；文本编码器，其获得输入文本的文本特征表示；相似度计算单元，其计算所述视频特征表示与所述文本特征表示之间的相似度，以用于确定视频和文本的匹配。

基本信息

专利标题：

基于多模态特征融合的高效视频检索模型

专利标题（英）：

暂无

公开（公告）号：

CN114564616A

申请号：

CN202210210095.4

公开（公告）日：

2022-05-31

申请日：

2022-03-04

授权号：

暂无

授权日：

暂无

发明人：

刘志张萌萌

申请人：

北方工业大学

申请人地址：

北京市石景山区晋元庄路5号北方工业大学

代理机构：

代理人：

优先权：

CN202210210095.4

主分类号：

G06F16/78

IPC分类号：

G06F16/78 G06F16/783 G06V10/44 G06K9/62 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F16/78

••基于相关的元数据或手动分类，如目录数据

法律状态

2022-05-31 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载