针对形近汉字的图像优化识别系统
授权
摘要
一种针对形近汉字的图像优化识别系统,包括:图像识别模块、中文文本笔画拆分模块和中文文本纠错模块,其中:图像识别模块根据文字在图片上笔画的突变为特征信息,利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块,中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块,中文文本纠错模块基于预训练的中文BERT模型,对输入的笔画编号信息和文字信息进行语义以及近形字的处理并得到识别正确的结果,本发明针对近形字的笔画而不是局部的形态特征进行改进,使得增加的特征数量减少,通过BERT基线模型联合学习,使得识别过程更加简洁高效的同时明显提高识别正确率。
基本信息
专利标题 :
针对形近汉字的图像优化识别系统
专利标题(英):
暂无
公开(公告)号 :
CN113297892A
申请号 :
CN202011358869.5
公开(公告)日 :
2021-08-24
申请日 :
2020-11-27
授权号 :
CN113297892B
授权日 :
2022-06-14
发明人 :
罗艺康李国强
申请人 :
上海交通大学
申请人地址 :
上海市闵行区东川路800号
代理机构 :
上海交达专利事务所
代理人 :
王毓理
优先权 :
CN202011358869.5
主分类号 :
G06K9/00
IPC分类号 :
G06K9/00 G06K9/62 G06N3/04
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06K
数据识别;数据表示;记录载体;记录载体的处理
G06K9/00
用于阅读或识别印刷或书写字符或者用于识别图形,例如,指纹的方法或装置
法律状态
2022-06-14 :
授权
2021-09-10 :
实质审查的生效
IPC(主分类) : G06K 9/00
申请日 : 20201127
申请日 : 20201127
2021-08-24 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载