一种网页数据采集的方法及系统
公开
摘要

本发明属于互联网技术领域,具体涉及一种网页数据采集的方法、系统和装置。包括:为同一类网页数据采集任务编写一个对应的全链路网页抽取规则;将若干个规则导入调度平台构成网页数据采集任务集;调度平台协调规则的执行顺序并将规则分配给某一个执行器处理;规则在执行器中被转换为模拟人工操作网站并记录数据的一系列动作;执行器协调动作的执行顺序完成网页数据采集任务。本发明,可以实现不涉及系统代码修改的条件下通过增加全链路网页抽取规则来扩充对不同格式网页数据采集任务的支持,易于扩展且能够精确提取网页数据字段。

基本信息
专利标题 :
一种网页数据采集的方法及系统
专利标题(英):
暂无
公开(公告)号 :
CN114282087A
申请号 :
CN202111634331.7
公开(公告)日 :
2022-04-05
申请日 :
2021-12-29
授权号 :
暂无
授权日 :
暂无
发明人 :
于东东布和廖凌浩
申请人 :
于东东
申请人地址 :
北京市海淀区裕泽园7-1214
代理机构 :
代理人 :
优先权 :
CN202111634331.7
主分类号 :
G06F16/951
IPC分类号 :
G06F16/951  G06F16/958  G06F16/955  G06F8/41  G06F16/25  G06F16/28  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/951
•••索引; 网络抓取技术
法律状态
2022-04-05 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332