基于度量注意力机制的图像字幕生成方法

授权

摘要

基于度量注意力机制的图像字幕生成方法，属于计算机视觉与图像字幕处理任务。本发明模型首先提取图像的特征结合生成具有低级语义的字幕，然后利用注意力机制提取图像的特定区域结合低级语义信息生成高级字幕。利用度量学习学习和真实标签之间的差异，对于符合阈值的输出，不符合阈值的，利用本发明提出的注意力模块，该模块重新结合图像和语义信息以及历史信息生成新的字幕。本发明是一种新型生成图像字幕的方法，不需要人工描述，即可完成大量的图像字幕任务。

基本信息

专利标题：

基于度量注意力机制的图像字幕生成方法

专利标题（英）：

暂无

公开（公告）号：

CN111046966A

申请号：

CN201911306345.9

公开（公告）日：

2020-04-21

申请日：

2019-12-18

授权号：

CN111046966B

授权日：

2022-04-05

发明人：

宋威周俊昊

申请人：

江南大学

申请人地址：

江苏省无锡市蠡湖大道1800号

代理机构：

大连理工大学专利中心

代理人：

梅洪玉

优先权：

CN201911306345.9

主分类号：

G06K9/62

IPC分类号：

G06K9/62 G06K9/46 G06N3/04

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06K

数据识别；数据表示；记录载体；记录载体的处理

G06K9/00

用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置

G06K9/62

应用电子设备进行识别的方法或装置

法律状态

2022-04-05 ：

授权

2020-05-15 ：

实质审查的生效

IPC(主分类) : G06K 9/62
申请日 : 20191218

2020-04-21 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载