一种新闻网页正文信息的提取方法

授权

摘要

本发明涉及一种新闻网页正文信息的提取方法，属于网页信息分析处理技术领域。现有技术中，通常采用包装器来抽取网页中感兴趣的数据，而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容，并以特定形式加以表示的，包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构，把网页数据的层次结构信息转化为用向量表达，构建和解析Html树，然后将Html树的各层次数据做对比，进行数据过滤，细化、识别，和数据重组，提取所需的数据信息。采用本发明所述的方法，适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息，速度快，准确性高。

基本信息

专利标题：

一种新闻网页正文信息的提取方法

专利标题（英）：

暂无

公开（公告）号：

CN1786965A

申请号：

CN200510132372.0

公开（公告）日：

2006-06-14

申请日：

2005-12-21

授权号：

暂无

授权日：

暂无

发明人：

舒文兵吴於茜肖建国

申请人：

北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学

申请人地址：

100871北京市海淀区成府路298号方正大厦

代理机构：

北京英赛嘉华知识产权代理有限责任公司

代理人：

田明

优先权：

CN200510132372.0

主分类号：

G06F17/30

IPC分类号：

G06F17/30

法律状态

2010-05-26 ：

授权

2006-08-09 ：

实质审查的生效

2006-06-14 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载