基于熵和置信度的不平衡数据欠采样方法
实质审查的生效
摘要
本发明公开了基于熵和置信度的不平衡数据欠采样方法,包括以下步骤,S1:定义不平衡数据集为X,其中包含Nn个多数样本Xn和Np个少数样本Xp;S2:计算每个多数样本的熵S3:利用多数样本和少数样本,基于RUS训练第一个随机森林分类器f0(x);S4:基于置信度和熵,计算经过步骤S3训练后的集合中多数样本的最终秩Ranki;S5:用所有少数样本Xp和具有最低秩的多数样本训练下一个随机森林分类器;S6:重复步骤S4和步骤S5,直到fl(x)中的l大于L,式中,l表示从一开始到现在累积的迭代次数,L为集合迭代次数。本发明将动态重采样方法与Boosting集成在一起,能解决边界过拟合问题,提高泛化性能,在ECUBoost中使用了置信度和熵作为基准,能保证欠采样过程中大多数样本的有效性和结构分布。
基本信息
专利标题 :
基于熵和置信度的不平衡数据欠采样方法
专利标题(英):
暂无
公开(公告)号 :
CN114511008A
申请号 :
CN202210050779.2
公开(公告)日 :
2022-05-17
申请日 :
2022-01-17
授权号 :
暂无
授权日 :
暂无
发明人 :
冯钰舒冯本勇张越张丽萍冯钰珊
申请人 :
冯钰舒
申请人地址 :
河北省石家庄市新华区广源路2号合作小区17-5-102
代理机构 :
西安方诺专利代理事务所(普通合伙)
代理人 :
李思琼
优先权 :
CN202210050779.2
主分类号 :
G06K9/62
IPC分类号 :
G06K9/62
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06K
数据识别;数据表示;记录载体;记录载体的处理
G06K9/00
用于阅读或识别印刷或书写字符或者用于识别图形,例如,指纹的方法或装置
G06K9/62
应用电子设备进行识别的方法或装置
法律状态
2022-06-03 :
实质审查的生效
IPC(主分类) : G06K 9/62
申请日 : 20220117
申请日 : 20220117
2022-05-17 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载