网页文本信息提取方法及装置、终端设备和存储介质
实质审查的生效
摘要
本发明公开了一种网页文本信息提取方法及装置、终端设备和存储介质,所述方法包括:解析HTML网页源码,以获得网页文本信息;根据网页文本信息确定文本类型;在文本类型为非表格时,根据预设关键字从网页文本信息中提取目标内容;在文本类型为表格时,根据预设关键字和单元格信息块标识符从网页文本信息中提取目标内容。本发明的方法,能够将网页中的信息按照从上至下的排布结构解析为表格和非表格两种形式,并分别采用不同的提取方式提取目标内容,从而实现对网页内容的精确提取。
基本信息
专利标题 :
网页文本信息提取方法及装置、终端设备和存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114462393A
申请号 :
CN202210377997.7
公开(公告)日 :
2022-05-10
申请日 :
2022-04-12
授权号 :
暂无
授权日 :
暂无
发明人 :
宋恒何兰生肖丽娜耿天宝刘道学李亚楠
申请人 :
安徽数智建造研究院有限公司
申请人地址 :
安徽省合肥市高新区习友路3333号
代理机构 :
北京清亦华知识产权代理事务所(普通合伙)
代理人 :
赵静
优先权 :
CN202210377997.7
主分类号 :
G06F40/221
IPC分类号 :
G06F40/221 G06F40/279
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/221
标记语言流的语法分析
法律状态
2022-05-27 :
实质审查的生效
IPC(主分类) : G06F 40/221
申请日 : 20220412
申请日 : 20220412
2022-05-10 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载