一种信息抽取方法、装置及电子设备
实质审查的生效
摘要
本发明实施例提供了一种信息抽取方法、装置及电子设备,所述方法包括:获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本;采用第一识别方式,分别对待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行;基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块;针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段;对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本子块对应的初步抽取结果;对初步抽取结果进行去重,得到目标文本的信息抽取结果。本发明实施例,能够提高信息抽取的准确性。
基本信息
专利标题 :
一种信息抽取方法、装置及电子设备
专利标题(英):
暂无
公开(公告)号 :
CN114444489A
申请号 :
CN202210112829.5
公开(公告)日 :
2022-05-06
申请日 :
2022-01-29
授权号 :
暂无
授权日 :
暂无
发明人 :
弓源李长亮
申请人 :
北京金山数字娱乐科技有限公司
申请人地址 :
北京市海淀区西二旗中路33号院5号楼11层002号
代理机构 :
北京柏杉松知识产权代理事务所(普通合伙)
代理人 :
丁芸
优先权 :
CN202210112829.5
主分类号 :
G06F40/279
IPC分类号 :
G06F40/279 G06F40/205 G06F16/31 G06F16/335
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/279
文字实体的识别
法律状态
2022-05-24 :
实质审查的生效
IPC(主分类) : G06F 40/279
申请日 : 20220129
申请日 : 20220129
2022-05-06 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载