基于语义分析的多行文字纸质表格OCR方法

实质审查的生效

摘要

本发明公开了基于语义分析的多行文字纸质表格OCR方法。该方法首先利用针对待数字化的纸质表格图像进行单元格划分，然后通过神经网络识别表格中的文字内容。基于语义通顺度计算，判断识别结果是否准确。对于出现乱序的错误识别结果，首先通过投影法提取原始单元格内文字的行数与列数，然后构建一个矩阵，将错误识别结果依次填入该矩阵中，然后对该矩阵进行转置操作，再按序输出文字，即可获得正序的识别结果。本方法可以实现纸质表格内多行文字识别按行/按列识别乱序情况下的自动判断与调整。减少人工校对带来的工作量，提高OCR智能化程度。

基本信息

专利标题：

基于语义分析的多行文字纸质表格OCR方法

专利标题（英）：

暂无

公开（公告）号：

CN114387431A

申请号：

CN202210033312.7

公开（公告）日：

2022-04-22

申请日：

2022-01-12

授权号：

暂无

授权日：

暂无

发明人：

薛如张钰李娟严文生

申请人：

杭州电子科技大学

申请人地址：

浙江省杭州市下沙高教园区2号大街

代理机构：

杭州君度专利代理事务所(特殊普通合伙)

代理人：

杨舟涛

优先权：

CN202210033312.7

主分类号：

G06V10/22

IPC分类号：

G06V10/22 G06V30/244

法律状态

2022-05-10 ：

实质审查的生效

IPC(主分类) : G06V 10/22
申请日 : 20220112

2022-04-22 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载