一种PDF文件表格解析方法及系统
授权
摘要

本发明公开了一种PDF文件表格解析方法及系统,涉及数据处理领域。所述方法:获取目标PDF文件,并将所述目标PDF文件转化为word文档;将word文档转化为html文档;识别html文档中的表格信息,读取并输出所述表格信息;在识别html文档中的表格信息过程中,还需要将识别到的表格信息转化成结构化信息。所述系统包括:转换单元一、转换单元二和制作单元。本发明所述方法不仅能准确的识别和读取PDF文件中的文字信息,还能完成的读取PDF文件中的表格信息,且准确率至少为90%,本发明还能将读取的表格信息转化为结构话数据。

基本信息
专利标题 :
一种PDF文件表格解析方法及系统
专利标题(英):
暂无
公开(公告)号 :
CN108664458A
申请号 :
CN201710193060.3
公开(公告)日 :
2018-10-16
申请日 :
2017-03-28
授权号 :
CN108664458B
授权日 :
2022-06-14
发明人 :
裴泽光武海峰
申请人 :
华多九州科技股份有限公司
申请人地址 :
北京市海淀区万柳中路6号院4号楼1层101
代理机构 :
北京市盛峰律师事务所
代理人 :
于国富
优先权 :
CN201710193060.3
主分类号 :
G06F17/22
IPC分类号 :
G06F17/22  
相关图片
法律状态
2022-06-14 :
授权
2022-05-13 :
著录事项变更
IPC(主分类) : G06F 40/151
变更事项 : 申请人
变更前 : 华多九州科技股份有限公司
变更后 : 中科云投科技股份有限公司
变更事项 : 地址
变更前 : 100089 北京市海淀区万柳中路6号院4号楼1层101
变更后 : 100089 北京市海淀区万柳中路6号院4号楼1层101
2018-11-09 :
实质审查的生效
IPC(主分类) : G06F 17/22
申请日 : 20170328
2018-10-16 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN108664458A.PDF
PDF下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332