网页标识抓取方法
授权
摘要
本发明公开了一种网页标识抓取方法,包括设置第一存储结构,用于存储规定数目的最新抓取的网页标识哈希值;和第二存储结构,用于存储所有已抓取的网页标识哈希值,第二存储结构包括初始子存储结构和分别对应初始子存储结构中每个节点的冲突避免子存储结构;其中对于在初始子存储结构中发生冲突的网页标识哈希值通过对应的冲突避免子存储结构来解决哈希冲突问题。本发明可以提高判断准备抓取的网页标识是否在已抓取的网页标识集合中的速度,并减少网页标识的抓取过程对内存资源的过多占用。
基本信息
专利标题 :
网页标识抓取方法
专利标题(英):
暂无
公开(公告)号 :
CN1991830A
申请号 :
CN200510135421.6
公开(公告)日 :
2007-07-04
申请日 :
2005-12-28
授权号 :
暂无
授权日 :
暂无
发明人 :
杨卫
申请人 :
腾讯科技(深圳)有限公司
申请人地址 :
518044广东省深圳市福田区振兴路赛格科技园2栋东410室
代理机构 :
北京同达信恒知识产权代理有限公司
代理人 :
黄志华
优先权 :
CN200510135421.6
主分类号 :
G06F17/30
IPC分类号 :
G06F17/30
法律状态
2009-04-08 :
授权
2007-08-29 :
实质审查的生效
2007-07-04 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN1991830A.PDF
PDF下载
2、
CN100476815C.PDF
PDF下载