基于语义分析的多行文字纸质表格OCR方法
实质审查的生效
摘要
本发明公开了基于语义分析的多行文字纸质表格OCR方法。该方法首先利用针对待数字化的纸质表格图像进行单元格划分,然后通过神经网络识别表格中的文字内容。基于语义通顺度计算,判断识别结果是否准确。对于出现乱序的错误识别结果,首先通过投影法提取原始单元格内文字的行数与列数,然后构建一个矩阵,将错误识别结果依次填入该矩阵中,然后对该矩阵进行转置操作,再按序输出文字,即可获得正序的识别结果。本方法可以实现纸质表格内多行文字识别按行/按列识别乱序情况下的自动判断与调整。减少人工校对带来的工作量,提高OCR智能化程度。
基本信息
专利标题 :
基于语义分析的多行文字纸质表格OCR方法
专利标题(英):
暂无
公开(公告)号 :
CN114387431A
申请号 :
CN202210033312.7
公开(公告)日 :
2022-04-22
申请日 :
2022-01-12
授权号 :
暂无
授权日 :
暂无
发明人 :
薛如张钰李娟严文生
申请人 :
杭州电子科技大学
申请人地址 :
浙江省杭州市下沙高教园区2号大街
代理机构 :
杭州君度专利代理事务所(特殊普通合伙)
代理人 :
杨舟涛
优先权 :
CN202210033312.7
主分类号 :
G06V10/22
IPC分类号 :
G06V10/22 G06V30/244
法律状态
2022-05-10 :
实质审查的生效
IPC(主分类) : G06V 10/22
申请日 : 20220112
申请日 : 20220112
2022-04-22 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载