一种动态检测失效流量的网络爬虫方法
授权
摘要
本发明涉及一种动态检测失效流量的网络爬虫方法,包括以下步骤,首先通过分析网络请求信息构建动态检测失效流量模型的数据集,然后设计出动态检测失效流量的方法,接着对URL队列中的信息进行读取并且对Cookie等信息进行封装后发送请求,提取返回数据信息,并对返回数据信息进行失效流量检测,最后对重复返回数据信息进行处理,如是有效数据则持久化存储。本发明弥补了现有聚焦爬虫和增量爬虫在Cookie失效问题的处理上和数据重复处理上的不足之处,降低了爬取数据的失效和重复概率,对爬虫系统的设计提供了可借鉴的方案,提高了爬虫系统的整体性能。
基本信息
专利标题 :
一种动态检测失效流量的网络爬虫方法
专利标题(英):
暂无
公开(公告)号 :
CN112765437A
申请号 :
CN202110086472.3
公开(公告)日 :
2021-05-07
申请日 :
2021-01-22
授权号 :
CN112765437B
授权日 :
2022-05-17
发明人 :
秦康赵小敏
申请人 :
浙江工业大学
申请人地址 :
浙江省杭州市下城区潮王路18号
代理机构 :
杭州之江专利事务所(普通合伙)
代理人 :
张慧英
优先权 :
CN202110086472.3
主分类号 :
G06F16/951
IPC分类号 :
G06F16/951 G06F16/906 G06F16/955 G06F16/22 G06N3/04 G06N3/08
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/951
•••索引; 网络抓取技术
法律状态
2022-05-17 :
授权
2021-05-25 :
实质审查的生效
IPC(主分类) : G06F 16/951
申请日 : 20210122
申请日 : 20210122
2021-05-07 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN112765437A.PDF
PDF下载