一种基于网页切分爬取的网络地址置信度评估方法
授权
摘要

本公开发明了一种基于网页切分爬取的网络地址置信度评估方法,首先对已分类的网页链接进行切分,使用脚本爬取切分后的网页内容,采用卷积神经网络对网页内容进行分类,将切分后的网页分类准确率与原始网页分类准确率相减,得到网页分类差值集,再通过计算不同切分网页的权重,得到网络地址置信度算法公式,接着使用脚本爬取待分类网页链接,并计算切分的数量,将置信度大于一定阈值的网页链接放入已分类网页链接集中继续优化算法公式中的权重,最后使用网络地址置信度算法得出爬取网页的置信度。本发明方法有效的评估了在对网页进行切分爬取时,待爬取的网页与原始网页内容的信息差异,提高了网页爬取的效率。

基本信息
专利标题 :
一种基于网页切分爬取的网络地址置信度评估方法
专利标题(英):
暂无
公开(公告)号 :
CN108647263A
申请号 :
CN201810397206.0
公开(公告)日 :
2018-10-12
申请日 :
2018-04-28
授权号 :
CN108647263B
授权日 :
2022-04-12
发明人 :
朱全银潘舒新胡荣林李翔周泓瞿学新
申请人 :
淮阴工学院
申请人地址 :
江苏省淮安市经济技术开发区枚乘东路1号
代理机构 :
南京苏高专利商标事务所(普通合伙)
代理人 :
梁耀文
优先权 :
CN201810397206.0
主分类号 :
G06F17/30
IPC分类号 :
G06F17/30  G06K9/62  
相关图片
法律状态
2022-04-12 :
授权
2018-11-06 :
实质审查的生效
IPC(主分类) : G06F 17/30
申请日 : 20180428
2018-10-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN108647263A.PDF
PDF下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332