一种基于多数据版本的混合数据清洗方法
授权
摘要
本发明公开了一种基于多数据版本的混合数据清洗方法。本发明利用马尔科夫逻辑网络概率图模型和最小化修复原则,将定性技术与定量技术结合到本发明中,设计高效的数据清洗方法,对错误的结构化数据进行检测和修正,保证清洗结果既能够对违反规则约束的脏数据进行清洗且满足对数据集的改动代价最小,又能使其符合统计学特性。本发明先根据马尔科夫逻辑索引技术将整个数据集划分为块和组,然后执行两阶段的数据清洗。第一阶段通过引入可信度分数的评价标准,对每个组内的数据进行清洗以得到多版本的数据清洗结果;第二阶段通过引入融合分数的评价标准,对前置阶段产生的多版本结果进行融合,从而生成最终统一的清洗结果。
基本信息
专利标题 :
一种基于多数据版本的混合数据清洗方法
专利标题(英):
暂无
公开(公告)号 :
CN109634949A
申请号 :
CN201811628044.3
公开(公告)日 :
2019-04-16
申请日 :
2018-12-28
授权号 :
CN109634949B
授权日 :
2022-04-12
发明人 :
高云君陈刚陈纯葛丛丛
申请人 :
浙江大学
申请人地址 :
浙江省杭州市西湖区余杭塘路866号
代理机构 :
杭州求是专利事务所有限公司
代理人 :
邱启旺
优先权 :
CN201811628044.3
主分类号 :
G06F16/215
IPC分类号 :
G06F16/215
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/215
•••提高数据质量;数据清理,例如重复数据消除、删除无效条目或更正排版错误
法律状态
2022-04-12 :
授权
2019-05-10 :
实质审查的生效
IPC(主分类) : G06F 16/215
申请日 : 20181228
申请日 : 20181228
2019-04-16 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载