面向领域基于样本的互联网结构化数据抽取方法及其系统
专利权的终止
摘要

本发明公开了一种面向领域基于样本的互联网结构化数据抽取方法及其系统,用于实现快速自动抽取互联网结构化数据,包括步骤:样本收集的步骤,用于通过自动记录用户访问数据的过程获得样本;样本分析的步骤,用于通过面向领域的语义知识库,自动分析所述样本,并抽取所述样本的特征信息;数据抽取的步骤,用于通过所述样本的特征信息,通过HTTP协议或驱动互联网浏览器自动读取多个网页,并从所述网页中抽取与所述样本的特征信息相似或相匹配的数据;数据集成的步骤,用于通过所述语义知识库,将与所述样本的特征信息相似或相匹配的数据转换成一统一格式的数据。本发明能自动从多个页面中抽取出具有类似特征的数据,大大提高了数据抽取的效率。

基本信息
专利标题 :
面向领域基于样本的互联网结构化数据抽取方法及其系统
专利标题(英):
暂无
公开(公告)号 :
CN1952929A
申请号 :
CN200510109288.7
公开(公告)日 :
2007-04-25
申请日 :
2005-10-20
授权号 :
暂无
授权日 :
暂无
发明人 :
关涛
申请人 :
关涛
申请人地址 :
北京市海淀区蓝旗营4号楼406室
代理机构 :
北京律诚同业知识产权代理有限公司
代理人 :
梁挥
优先权 :
CN200510109288.7
主分类号 :
G06F17/30
IPC分类号 :
G06F17/30  
相关图片
法律状态
2010-12-29 :
专利权的终止
未缴年费专利权终止号牌文件类型代码 : 1605
号牌文件序号 : 101028286036
IPC(主分类) : G06F 17/30
专利号 : ZL2005101092887
申请日 : 20051020
授权公告日 : 20081210
终止日期 : 20091120
2008-12-10 :
授权
2007-06-13 :
实质审查的生效
2007-04-25 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN100442283C.PDF
PDF下载
2、
CN1952929A.PDF
PDF下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332