一种基于图文线性组合的多模态预训练方法
公开
摘要
一种基于图文线性组合的多模态预训练方法,属于图文多模态检索技术领域,包括以下步骤:S1:对文本和图像分别进行特征提取;S2:在交互层建立文本和图像两种模态间的联系;S2.1:将S1中得到的视觉模态和语言模态的特征向量联合输入到多模态预训练模型的交互层中;S2.2:利用Transformer中的注意力机制,让两种模态相互之间产生联系;S3:将图文匹配或屏蔽语言模型作为预训练目标,将模型训练至可用;S4:将具体的应用场景和下游任务作为训练目标,对所述预训练模型进行微调训练,将模型的性能在该场景下达到最优。本申请的训练方法解决了模型运算时间的瓶颈问题和改良预训练模型微调后性能问题,具有较为重要的科学意义和实际应用价值。
基本信息
专利标题 :
一种基于图文线性组合的多模态预训练方法
专利标题(英):
暂无
公开(公告)号 :
CN114298158A
申请号 :
CN202111480214.X
公开(公告)日 :
2022-04-08
申请日 :
2021-12-06
授权号 :
暂无
授权日 :
暂无
发明人 :
袁鑫攀张知奇陈博王克李长云
申请人 :
湖南工业大学
申请人地址 :
湖南省株洲市天元区泰山路88号
代理机构 :
广州粤高专利商标代理有限公司
代理人 :
刘翔
优先权 :
CN202111480214.X
主分类号 :
G06K9/62
IPC分类号 :
G06K9/62 G06N3/04 G06N3/08 G06F40/284 G06V10/46 G06V10/764 G06V10/774
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06K
数据识别;数据表示;记录载体;记录载体的处理
G06K9/00
用于阅读或识别印刷或书写字符或者用于识别图形,例如,指纹的方法或装置
G06K9/62
应用电子设备进行识别的方法或装置
法律状态
2022-04-08 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载