基于正则匹配和Bloom filter的增量新闻URL提...
实质审查的生效
摘要

本发明公开了基于正则匹配和Bloom filter的增量新闻URL提取方法,包括以下步骤:步骤一,搭建IP代理服务;步骤二,录入网站特征数据;步骤三,生成request并发送;步骤四,response预处理;步骤五,提取URL;步骤六,URL拼接域名;步骤七,URL过滤及过滤器更新;步骤八,步骤重复;步骤九,url标准化处理;步骤十,得到增量原始新闻URL;步骤十一,得到增量标准URL;步骤十二,储存;该发明,根据新闻网站首页或子板块首页新增URL较大概率是新闻URL的特点,发明设计了通过正则提取所有URL,进行处理后,用Bloom filter快速过滤,筛选出新增的URL作为新闻URL的方法,从而能够有效的解决目前web新闻采集方法中存在的因为不能兼顾准确性和开发维护成本而带来的信息处理效率低、成本高的缺陷。

基本信息
专利标题 :
基于正则匹配和Bloom filter的增量新闻URL提取方法
专利标题(英):
暂无
公开(公告)号 :
CN114519163A
申请号 :
CN202210158871.0
公开(公告)日 :
2022-05-20
申请日 :
2022-02-21
授权号 :
暂无
授权日 :
暂无
发明人 :
周龙安
申请人 :
江西数易科技有限公司
申请人地址 :
江西省上饶市高铁经济试验区茶圣东路文创中心4号楼205室
代理机构 :
南昌卓尔精诚专利代理事务所(普通合伙)
代理人 :
徐柳华
优先权 :
CN202210158871.0
主分类号 :
G06F16/958
IPC分类号 :
G06F16/958  G06F16/955  G06F16/906  G06N20/00  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/958
•••网络站点的组织或管理,例如:发布,自动链接或保持页面
法律状态
2022-06-07 :
实质审查的生效
IPC(主分类) : G06F 16/958
申请日 : 20220221
2022-05-20 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332