一种爬虫方法、装置、电子设备及存储介质
实质审查的生效
摘要

本发明提供了一种爬虫方法、装置、电子设备及存储介质,技术方案为:将待抓取网站对应的爬虫任务代码编译后发布到爬虫系统的项目路径下;将待抓取网站信息发送到爬虫系统的消息队列中;所述待抓取网站信息包括初始url和所述爬虫任务代码中定义的爬虫任务类的全限定名;从爬虫系统的消息队列中获取待抓取网站信息,根据所述爬虫任务代码中定义的爬虫任务类的全限定名,抓取待抓取网站信息中的初始url对应的网站页面,对所述初始url对应的网站页面进行页面解析,存储对所述初始url对应的网站页面的页面解析结果。本发明能够在不停机的情况下实现爬虫代码的全配置化、定制化操作,不需要停机重新部署。

基本信息
专利标题 :
一种爬虫方法、装置、电子设备及存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114329137A
申请号 :
CN202111596503.6
公开(公告)日 :
2022-04-12
申请日 :
2021-12-24
授权号 :
暂无
授权日 :
暂无
发明人 :
陈曾华
申请人 :
北京京东振世信息技术有限公司
申请人地址 :
北京市海淀区知春路76号6层
代理机构 :
北京德琦知识产权代理有限公司
代理人 :
谢安昆
优先权 :
CN202111596503.6
主分类号 :
G06F16/951
IPC分类号 :
G06F16/951  G06F16/955  G06F8/41  G06F8/60  G06F9/54  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/951
•••索引; 网络抓取技术
法律状态
2022-04-29 :
实质审查的生效
IPC(主分类) : G06F 16/951
申请日 : 20211224
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332