基于疲劳仿真模型的拟人爬虫方法
实质审查的生效
摘要

基于疲劳仿真模型的拟人爬虫方法,涉及信息获取领域。解决了现有针对反爬虫技术的爬虫方法,爬取效率低的问题。本发明方法包括:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;S2、对初始数据集进行预处理;S3、构建疲劳仿真模型;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。主要用于信息采集。

基本信息
专利标题 :
基于疲劳仿真模型的拟人爬虫方法
专利标题(英):
暂无
公开(公告)号 :
CN114547418A
申请号 :
CN202210180955.4
公开(公告)日 :
2022-05-27
申请日 :
2022-02-25
授权号 :
暂无
授权日 :
暂无
发明人 :
王红滨杨永恒江洋史腾飞李仲铀孙孟阳谢祥生何鸣孙彧周连科王念滨肖伟
申请人 :
哈尔滨工程大学;中国船舶重工集团公司第七一四研究所
申请人地址 :
黑龙江省哈尔滨市南岗区南通大街145号
代理机构 :
哈尔滨市松花江专利商标事务所
代理人 :
董玉娇
优先权 :
CN202210180955.4
主分类号 :
G06F16/951
IPC分类号 :
G06F16/951  G06F30/27  G06N3/04  G06N3/08  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/951
•••索引; 网络抓取技术
法律状态
2022-06-14 :
实质审查的生效
IPC(主分类) : G06F 16/951
申请日 : 20220225
2022-05-27 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332