基于表格结构解析的文档比对分析方法及系统
授权
摘要
本发明属于数据处理技术领域,具体涉及基于表格结构解析的文档比对分析方法及系统。方法包括S1,接收各种类型的来源文件,并统一转换为PDF文件;S2,针对PDF文件中不同类型的内容部分,分别使用不同工具进行抽取、划分和识别,获得带有文本内容、坐标信息、表结构的表数据和非表数据;S3,将表数据和非表数据分别进行比对,最终得到表外文本差异和表格差异。系统包括文件转换模块、文件识别模块、数据比对模块。本发明具有专注于文档内容和语义层面的比对,在文档比对中具有表格间结构和语义比对的能力,且比对效果好,占用资源低,文字识别准确的特点。
基本信息
专利标题 :
基于表格结构解析的文档比对分析方法及系统
专利标题(英):
暂无
公开(公告)号 :
CN114021543A
申请号 :
CN202210003662.9
公开(公告)日 :
2022-02-08
申请日 :
2022-01-05
授权号 :
CN114021543B
授权日 :
2022-04-22
发明人 :
郑飞鹏
申请人 :
杭州实在智能科技有限公司
申请人地址 :
浙江省杭州市余杭区余杭街道文一西路1818-2号6幢6层
代理机构 :
浙江永鼎律师事务所
代理人 :
周希良
优先权 :
CN202210003662.9
主分类号 :
G06F40/194
IPC分类号 :
G06F40/194 G06V30/413 G06V30/10
相关图片
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/194
计算文件之间的差异
法律状态
2022-04-22 :
授权
2022-02-25 :
实质审查的生效
IPC(主分类) : G06F 40/194
申请日 : 20220105
申请日 : 20220105
2022-02-08 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN114021543A.PDF
PDF下载