文档结构化提取方法、装置、计算机设备及存储介质
实质审查的生效
摘要

本发明的实施例提供了一种文档结构化提取方法、装置、计算机设备及存储介质,所述方法包括:将待提取的文档进行转换或解密;将转换或解密后的文件进行OCR自动识别导出excel文件并导入到数据库中保存;对excel表格进行数据处理;基于数据特征,对处理后的数据进行OCR识别结果进行异常检测,对检测异常的进行手工修正;对数据处理后的excel表格进行标准化。其引入OCR技术实现表格文本数据抽取并导出到excel,基于数据特征规则对OCR识别结果进行异常检测,并对检测结果进行修正让数据提取结果更准确,一次性OCR识别文本和表格,然后将数据一次性结构化处理,效率更高。

基本信息
专利标题 :
文档结构化提取方法、装置、计算机设备及存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114417798A
申请号 :
CN202210059932.8
公开(公告)日 :
2022-04-29
申请日 :
2022-01-19
授权号 :
暂无
授权日 :
暂无
发明人 :
丁家奎
申请人 :
广州天维信息技术股份有限公司
申请人地址 :
广东省广州市天河区华观路1934号501房
代理机构 :
深圳市精英专利事务所
代理人 :
曹祥波
优先权 :
CN202210059932.8
主分类号 :
G06F40/174
IPC分类号 :
G06F40/174  G06F40/18  G06V20/62  G06V30/412  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/174
表格填充;合并
法律状态
2022-05-20 :
实质审查的生效
IPC(主分类) : G06F 40/174
申请日 : 20220119
2022-04-29 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332