企业物料清洗服务系统及其数据清洗方法
实质审查的生效
摘要
本发明公开了一种企业物料清洗服务系统及其数据清洗方法,数据采集模块,用于采集企业物料原始数据;规则库模块,根据企业自身需求定义数据清洗校验规则及权重占比;数据预处理模块,用于识别部分参数错误、缺失、重复、字形相近并根据余弦定理与编辑距离相似度计算方式进行计算、并输出数据排列结果;数据对比模块,根据数据对比计算采集的原始数据与规则库内数据的相似度,将相似度超过阈值的数据标识为相似数据;数据确认模块,将相似数据经过人工进行数据识别确认是否重复;数据仓库模块。本发明针对源数据不规范、不准确、不完整性的问题,采用数据分类、相似度匹配排序、再配合人工干预确认或者智能识别的方式,有效解决了数据清洗问题。
基本信息
专利标题 :
企业物料清洗服务系统及其数据清洗方法
专利标题(英):
暂无
公开(公告)号 :
CN114328495A
申请号 :
CN202111662316.3
公开(公告)日 :
2022-04-12
申请日 :
2021-12-31
授权号 :
暂无
授权日 :
暂无
发明人 :
耿渭宾张复生
申请人 :
陕西优百信息技术有限公司
申请人地址 :
陕西省西安市高新区科技五路北侧橡树星座1幢2单元22901室
代理机构 :
山东三邦知识产权代理事务所(普通合伙)
代理人 :
文雯
优先权 :
CN202111662316.3
主分类号 :
G06F16/215
IPC分类号 :
G06F16/215 G06K9/62
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/215
•••提高数据质量;数据清理,例如重复数据消除、删除无效条目或更正排版错误
法律状态
2022-04-29 :
实质审查的生效
IPC(主分类) : G06F 16/215
申请日 : 20211231
申请日 : 20211231
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载