一种分布式动态可配置的爬虫平台及爬虫方法
公开
摘要
本发明提供了一种分布式动态可配置的爬虫平台及爬虫方法,用于从海量站点内定向抓取数据,包括用户输入爬虫需求,依据爬虫需求形成爬虫抓取规则;解析爬虫抓取规则形成爬虫任务,解析爬虫调度配置形成爬虫任务调度;根据爬虫任务对爬虫平台内多个爬虫子模块排序,选择排序最高的爬虫子模块作为最优爬虫运行节点;启动并执行爬虫任务,分别抓取m个目标站点的n个指定页面,解析指定页面URL并去重处理后加入待爬列队,直至m个目标站点中n个指定页面全部被抓取;对待爬列队中指定页面的结构化数据相似度检测,去重处理以降低冗余度,形成并保存爬虫结果。爬虫方法能够从海量站点内定向抓取数据,以快速高效的获取用户所需数据。
基本信息
专利标题 :
一种分布式动态可配置的爬虫平台及爬虫方法
专利标题(英):
暂无
公开(公告)号 :
CN114297460A
申请号 :
CN202111348896.9
公开(公告)日 :
2022-04-08
申请日 :
2021-11-15
授权号 :
暂无
授权日 :
暂无
发明人 :
朱遥文黄伟聪
申请人 :
北京众标智能科技有限公司
申请人地址 :
北京市海淀区中关村东路1号院8号楼一层CG05-067
代理机构 :
北京清大紫荆知识产权代理有限公司
代理人 :
秦亚群
优先权 :
CN202111348896.9
主分类号 :
G06F16/951
IPC分类号 :
G06F16/951 G06F16/955
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/951
•••索引; 网络抓取技术
法律状态
2022-04-08 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载