一种基于多模态融合的视觉问答融合增强方法

授权

摘要

本发明公开了一种基于多模态融合的视觉问答融合增强方法。本发明步骤如下：1、利用GRU结构构建时序模型，获得问题的特征表示学习、利用从Faster R‑CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示；2、基于注意力模型Transformer进行多模态推理，引入注意力模型对图片‑问题‑答案这个三元组进行多模态融合，建立推理关系；3、针对不同的隐含关系有不同的推理过程和结果输出，再根据这些结果输出来进行标签分布回归学习，来确定答案。本发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中，能够帮助盲人或者视觉障碍者更好地感知周围环境，也应用于图片检索系统，提高图片检索的准确性和多样性。

基本信息

专利标题：

一种基于多模态融合的视觉问答融合增强方法

专利标题（英）：

暂无

公开（公告）号：

CN110377710A

申请号：

CN201910520138.7

公开（公告）日：

2019-10-25

申请日：

2019-06-17

授权号：

CN110377710B

授权日：

2022-04-01

发明人：

颜成钢俞灵慧孙垚棋张继勇张勇东

申请人：

杭州电子科技大学

申请人地址：

浙江省杭州市下沙高教园区2号大街

代理机构：

杭州君度专利代理事务所(特殊普通合伙)

代理人：

朱月芬

优先权：

CN201910520138.7

主分类号：

G06F16/332

IPC分类号：

G06F16/332 G06K9/62