一种基于多模态融合的视觉问答融合增强方法
授权
摘要

本发明公开了一种基于多模态融合的视觉问答融合增强方法。本发明步骤如下:1、利用GRU结构构建时序模型,获得问题的特征表示学习、利用从Faster R‑CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示;2、基于注意力模型Transformer进行多模态推理,引入注意力模型对图片‑问题‑答案这个三元组进行多模态融合,建立推理关系;3、针对不同的隐含关系有不同的推理过程和结果输出,再根据这些结果输出来进行标签分布回归学习,来确定答案。本发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中,能够帮助盲人或者视觉障碍者更好地感知周围环境,也应用于图片检索系统,提高图片检索的准确性和多样性。

基本信息
专利标题 :
一种基于多模态融合的视觉问答融合增强方法
专利标题(英):
暂无
公开(公告)号 :
CN110377710A
申请号 :
CN201910520138.7
公开(公告)日 :
2019-10-25
申请日 :
2019-06-17
授权号 :
CN110377710B
授权日 :
2022-04-01
发明人 :
颜成钢俞灵慧孙垚棋张继勇张勇东
申请人 :
杭州电子科技大学
申请人地址 :
浙江省杭州市下沙高教园区2号大街
代理机构 :
杭州君度专利代理事务所(特殊普通合伙)
代理人 :
朱月芬
优先权 :
CN201910520138.7
主分类号 :
G06F16/332
IPC分类号 :
G06F16/332  G06K9/62  
相关图片
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/332
•••查询公式
法律状态
2022-04-01 :
授权
2019-11-19 :
实质审查的生效
IPC(主分类) : G06F 16/332
申请日 : 20190617
2019-10-25 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN110377710A.PDF
PDF下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332