一种基于多尺度语义网络的视听视频解析装置及方法

实质审查的生效

摘要

本发明提供一种基于多尺度语义网络的视听视频解析方法及装置，用于对目标音视频中所有单模态和多模态事件进行识别和定位，其特征在于，通过对目标音视频进行了预处理得到的视觉特征和音频特征，然后由基于多尺度语义网络构建的视听视频解析模型对视觉特征和音频特征进行识别和定位从而生成目标音视频的所有单模态事件类别、多模态事件类别以及起始时刻。其中，视听视频解析模型包含跨模态时序卷积注意力网络、自适应语义融合模块、分类模块以及基于注意力的多模态多实例学习池化模块，跨模态时序卷积注意力网络用于捕捉多尺度语义，自适应语义融合模块用于多尺度语义的融合，基于注意力的多模态多实例学习模块用于实现弱监督学习。

基本信息

专利标题：

一种基于多尺度语义网络的视听视频解析装置及方法

专利标题（英）：

暂无

公开（公告）号：

CN114519809A

申请号：

CN202210134629.X

公开（公告）日：

2022-05-20

申请日：

2022-02-14

授权号：

暂无

授权日：

暂无

发明人：

于家硕冯瑞张玥杰

申请人：

复旦大学

申请人地址：

上海市杨浦区邯郸路220号

代理机构：

上海德昭知识产权代理有限公司

代理人：

程宗德

优先权：

CN202210134629.X

主分类号：

G06V10/82

IPC分类号：

G06V10/82 G06V10/764 G06K9/62 G06N3/04 G06N3/08 G10L25/57 G10L25/27 G10L25/03

法律状态

2022-06-07 ：

实质审查的生效

IPC(主分类) : G06V 10/82
申请日 : 20220214

2022-05-20 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载