文字检测模型预训练方法以及装置
实质审查的生效
摘要
本说明书实施例提供一种文字检测模型预训练方法以及装置,所述方法包括:将文字样本输入文本编码器得到文字特征,以及将图像样本输入图像编码器得到图像特征,其中,文字样本从图像样本提取得到;根据数据字典和图像特征确定图像样本是否包含文字样本,得到文字包含结果,其中数据字典包括文字样本;根据文字特征和图像特征确定文字样本和图像样本的对应关系,得到图文对应结果;根据文字特征和图像特征预测被掩盖的文字样本,得到文字预测结果;根据包含结果、图文对应结果和文字预测结果,对图像编码器进行参数调整,得到预训练文字检测模型。通过使得视觉表征具备了语义知识,规避了由于语义知识不足而产生的成行成列歧义等问题。
基本信息
专利标题 :
文字检测模型预训练方法以及装置
专利标题(英):
暂无
公开(公告)号 :
CN114495129A
申请号 :
CN202210405265.4
公开(公告)日 :
2022-05-13
申请日 :
2022-04-18
授权号 :
暂无
授权日 :
暂无
发明人 :
宋思博万建强杨志博姚聪
申请人 :
阿里巴巴(中国)有限公司
申请人地址 :
浙江省杭州市余杭区五常街道文一西路969号3幢5层554室
代理机构 :
北京智信禾专利代理有限公司
代理人 :
刘晓楠
优先权 :
CN202210405265.4
主分类号 :
G06V30/40
IPC分类号 :
G06V30/40 G06V30/18 G06F40/242 G06F40/30
法律状态
2022-05-31 :
实质审查的生效
IPC(主分类) : G06V 30/40
申请日 : 20220418
申请日 : 20220418
2022-05-13 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载