一种基于鲁棒性表征学习的场景文本识别方法
授权
摘要
本发明提供了一种基于鲁棒性表征学习的场景文本识别方法。该方法包括:将待识别的图像输入文本矫正网络,得到矫正图像;将矫正图像输入编码器,编码器利用坐标编码模块提取图像的空间纹理信息,利用上下文建模网络提取文本的语义建模特征,输出文本的语义建模特征给全局语义提取模块和解码器;全局语义提取模对输入的文本的语义建模特征进行文本语义表征提取并输出给解码器;解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测,输出待识别的图像的文本识别结果。本发明通过文本表征网络和表征学习机制优化文本表征的提取和分布,有效提升文本识别中对于复杂背景干扰、多种字体风格与文本排布的鲁棒性。
基本信息
专利标题 :
一种基于鲁棒性表征学习的场景文本识别方法
专利标题(英):
暂无
公开(公告)号 :
CN113343707A
申请号 :
CN202110625864.2
公开(公告)日 :
2021-09-03
申请日 :
2021-06-04
授权号 :
CN113343707B
授权日 :
2022-04-08
发明人 :
明悦范春晓孙娟娟邓冠玉邓茜
申请人 :
北京邮电大学
申请人地址 :
北京市海淀区西土城路10号
代理机构 :
北京市商泰律师事务所
代理人 :
黄晓军
优先权 :
CN202110625864.2
主分类号 :
G06F40/30
IPC分类号 :
G06F40/30 G06K9/46 G06K9/62 G06N3/04 G06N3/08
相关图片
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/30
语义分析
法律状态
2022-04-08 :
授权
2021-09-21 :
实质审查的生效
IPC(主分类) : G06F 40/30
申请日 : 20210604
申请日 : 20210604
2021-09-03 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN113343707A.PDF
PDF下载