文章内容抽取方法、装置、设备及存储介质
实质审查的生效
摘要

本申请公开了一种文章内容抽取方法、装置、设备及存储介质。该方法包括首先获取目标网页的源码,对目标网页的源码进行DOM树构建;对构建的DOM树进行信息重构后遍历DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,标签中包括该标签对应的位置信息;对预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;对候选标签集合进行多维度特征采集得到各个维度的分值,进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容。可以看出,本申请中通过从不同维度特征进行判定,最终计算出目标文章内容在网页中的位置,可以有效的进行数据抽取。

基本信息
专利标题 :
文章内容抽取方法、装置、设备及存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114528811A
申请号 :
CN202210072667.7
公开(公告)日 :
2022-05-24
申请日 :
2022-01-21
授权号 :
暂无
授权日 :
暂无
发明人 :
田振李赟辉
申请人 :
北京麦克斯泰科技有限公司
申请人地址 :
北京市海淀区中关村南大街5号二区683号楼9层9061室
代理机构 :
北京知呱呱知识产权代理有限公司
代理人 :
朱芳
优先权 :
CN202210072667.7
主分类号 :
G06F40/14
IPC分类号 :
G06F40/14  G06F16/33  G06F16/35  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/14
树结构文档
法律状态
2022-06-10 :
实质审查的生效
IPC(主分类) : G06F 40/14
申请日 : 20220121
2022-05-24 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332