一种基于视频上下文信息融合的多模态密集视频描述方法

公开

摘要

本发明公开了一种基于视频上下文信息融合的多模态密集视频描述方法，用于处理密集视频描述任务。本发明步骤如下：步骤(1)、数据预处理，提取视频多模态数据特征；步骤(2)、建立多模态密集视频描述网络，并引入时间‑语义关系模块；步骤(3)、模型训练，优化描述生成器，得到模型在视频上的文本描述；模型通过采用稀疏采样和引入时间‑语义关系模块，解决了视频描述任务中普遍存在的视频信息冗余以及视频事件与事件之间关系的引入问题，从而减少了模型的计算量，提高了生成句子的连贯性与一致性。在数据集上的实验表明，通过使用这两种方法，能够有效提升模型生成文本描述的效果与性能。

基本信息

专利标题：

一种基于视频上下文信息融合的多模态密集视频描述方法

专利标题（英）：

暂无

公开（公告）号：

CN114627162A

申请号：

CN202210347546.9

公开（公告）日：

2022-06-14

申请日：

2022-04-01

授权号：

暂无

授权日：

暂无

发明人：

俞俊南瑞环朱素果范建平

申请人：

杭州电子科技大学

申请人地址：

浙江省杭州市下沙高教园区2号大街

代理机构：

杭州君度专利代理事务所(特殊普通合伙)

代理人：

朱月芬

优先权：

CN202210347546.9

主分类号：

G06T7/269

IPC分类号：

G06T7/269 G06V10/80 G06V10/82 G06K9/62 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06T

一般的图像数据处理或产生

G06T7/10

分割；边缘检测

G06T7/20

运动分析

G06T7/269

使用基于梯度的方法

法律状态

2022-06-14 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载