一种PDF文本精确提取方法、终端设备及存储介质
公开
摘要
本发明涉及一种PDF文本精确提取方法、终端设备及存储介质,该方法中包括:根据待提取文本,确定待提取文本所在PDF页中的页特征;根据页特征获取PDF文档内包含页特征的页特征候选框的坐标范围,同时根据待提取文本获取PDF文档内包含待提取文本的待提取文本候选框的坐标范围;当接收到需要提取待提取文本的PDF文档时,从PDF文档的各页的页特征候选框的坐标范围内查找是否存在页特征,将存在页特征的页作为待提取文本所在的页;从待提取文本所在的页的待提取文本候选框的坐标范围内提取待提取文本。本发明可以解决文本所在页面因页索引发生变化导致的无法定位提取的问题。
基本信息
专利标题 :
一种PDF文本精确提取方法、终端设备及存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114564918A
申请号 :
CN202210226889.X
公开(公告)日 :
2022-05-31
申请日 :
2022-03-08
授权号 :
暂无
授权日 :
暂无
发明人 :
赵明星钟玉秋
申请人 :
厦门纳龙健康科技股份有限公司;南京纳龙科技有限公司
申请人地址 :
福建省厦门市软件园二期观日路18号203
代理机构 :
厦门市精诚新创知识产权代理有限公司
代理人 :
赵薇
优先权 :
CN202210226889.X
主分类号 :
G06F40/151
IPC分类号 :
G06F40/151 G06F40/205 G06F40/279 G16H10/60 G16H15/00
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/151
转换
法律状态
2022-05-31 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载