一种场景文字识别方法及系统
实质审查的生效
摘要

本发明公开了一种场景文字识别方法及系统。该方法包括:构建训练样本;训练样本包括公用数据集和非公用数据集;公用数据集和非公用数据集均包括场景图片和标签文件;通过训练样本训练Yolov5模型,得到字符检测模型;字符检测模型的输入为场景图片,输出为场景图片中包含的所有单个字符;通过训练样本和字符检测模型识别出的所有单个字符对Textformer模型进行训练;通过训练好的Textformer模型对待识别的场景图片中的文字区域和单个字符进行识别。本发明仅利用“Transoformer”就实现了一个端到端的文本定位器,相较于传统的使用卷积神经网络提取图片特征再输入到“Transformer”中的方法,有着更高的效率。并且,由于只用到了“Transformer”,所以本发明的模型框架更简单。

基本信息
专利标题 :
一种场景文字识别方法及系统
专利标题(英):
暂无
公开(公告)号 :
CN114550158A
申请号 :
CN202210164606.3
公开(公告)日 :
2022-05-27
申请日 :
2022-02-23
授权号 :
暂无
授权日 :
暂无
发明人 :
邱明许全星
申请人 :
厦门大学
申请人地址 :
福建省厦门市思明区思明南路422号
代理机构 :
北京高沃律师事务所
代理人 :
杜阳阳
优先权 :
CN202210164606.3
主分类号 :
G06V20/62
IPC分类号 :
G06V20/62  G06V10/82  G06N3/04  G06N3/08  
法律状态
2022-06-14 :
实质审查的生效
IPC(主分类) : G06V 20/62
申请日 : 20220223
2022-05-27 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332