一种结构化数据智能清洗方法
授权
摘要
本发明公开了一种结构化数据智能清洗方法,应用于数据处理技术领域,包括以下步骤:基于本地文件读写接口获取待清洗的数据文件并建立文件列表;将所有待清洗的数据文件合并为一个待清洗文件;使用哈希表识别待清洗文件所包含的数据类型和文件格式,并标记可识别文件数据所属的模板类型;根据已标记的模板类型加载文件列表,对文件数据依次进行表头识别、数据校验、格式筛选、查重的数据清洗处理;将已清洗数据使用SQL查询器逐条录入数据库。本发明能够有效减少在多文件数据清洗过程中的手工二次录入工作量,并且显著提升数据清洗效率。
基本信息
专利标题 :
一种结构化数据智能清洗方法
专利标题(英):
暂无
公开(公告)号 :
CN110457302A
申请号 :
CN201910699857.X
公开(公告)日 :
2019-11-15
申请日 :
2019-07-31
授权号 :
CN110457302B
授权日 :
2022-04-29
发明人 :
王国俊吴东贤王广峰
申请人 :
河南开合软件技术有限公司
申请人地址 :
河南省郑州市郑州高新技术产业开发区大学科技园(东区)161幢13层40号
代理机构 :
成都弘毅天承知识产权代理有限公司
代理人 :
彭思思
优先权 :
CN201910699857.X
主分类号 :
G06F16/215
IPC分类号 :
G06F16/215 G06F16/242
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/215
•••提高数据质量;数据清理,例如重复数据消除、删除无效条目或更正排版错误
法律状态
2022-04-29 :
授权
2019-12-10 :
实质审查的生效
IPC(主分类) : G06F 16/215
申请日 : 20190731
申请日 : 20190731
2019-11-15 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载