一种用于对公文中表格内容进行识别的方法及系统
公开
摘要
本发明公开了一种用于对公文中表格内容进行识别的方法及系统,方法包括:获取公文文档图像,进行预处理;基于深度学习算法对经过预处理的公文文档图像进行文本框位置检测和文本框内容识别,获取每个文本框的文本框位置信息,以及对应的文本框内容信息;对公文文档图像中的表格整体单元格进行检测,检测出所有横线和所有竖线;基于检测出的所有横线和所有竖线获取小单元格位置信息;基于文本框位置信息和小单元格位置信息,判断文本框是否与小单元格相对应;当两者相对应时,基于文本框位置信息对文本框进行排序,获取排序后的文本框内容信息;基于排序后的文本框内容信息确定表格整体单元格的内容排布,输出结构化文本信息。
基本信息
专利标题 :
一种用于对公文中表格内容进行识别的方法及系统
专利标题(英):
暂无
公开(公告)号 :
CN114445839A
申请号 :
CN202111589671.2
公开(公告)日 :
2022-05-06
申请日 :
2021-12-23
授权号 :
暂无
授权日 :
暂无
发明人 :
龚晨毛翔宇金洪亮蔡书成邓钢
申请人 :
航天信息股份有限公司
申请人地址 :
北京市海淀区杏石口路甲18号
代理机构 :
北京工信联合知识产权代理有限公司
代理人 :
贾银秋
优先权 :
CN202111589671.2
主分类号 :
G06V30/412
IPC分类号 :
G06V30/412 G06K9/62 G06N20/00 G06V10/22 G06V10/25 G06V10/774
法律状态
2022-05-06 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载