基于机器学习的数据索引优化方法

实质审查的生效

摘要

本发明提供了一种基于机器学习的数据索引优化方法，包括对主键索引进行优化以及对二级索引进行优化。前者在模型分层结构的设计下，通过自顶向下拟合预测残差来充分利用非叶子模型的拟合效果、权重更新来提高对离群数据的关注度和预设阈值进行数据剪枝这三个方面提高多维主键数据的预测准确度。后者在第一阶段使用二分类模型和Bloom Filter进行两步筛选，将数据集划分成唯一键值和非唯一键值，并保有一定的误判率。在第二阶段根据两类数据的特点，分别构建索引模型进行处理，从而满足二级索引的查询要求。本发明能够适应多种索引类型，提升索引的查询效率，降低索引的空间开销。

基本信息

专利标题：

基于机器学习的数据索引优化方法

专利标题（英）：

暂无

公开（公告）号：

CN114328519A

申请号：

CN202111593769.5

公开（公告）日：

2022-04-12

申请日：

2021-12-23

授权号：

暂无

授权日：

暂无

发明人：

宋爱波马露露李雅琦方效林

申请人：

东南大学

申请人地址：

江苏省南京市麒麟科创园智识路26号启迪城立业园04幢

代理机构：

南京众联专利代理有限公司

代理人：

叶涓涓

优先权：

CN202111593769.5

主分类号：

G06F16/22

IPC分类号：

G06F16/22 G06F16/2453 G06N20/00

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F16/22

••索引；数据结构；存储结构

法律状态

2022-04-29 ：

实质审查的生效

IPC(主分类) : G06F 16/22
申请日 : 20211223

2022-04-12 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载