识别文档章节标题的方法及装置、电子设备、存储介质
实质审查的生效
摘要
本申请涉及文本处理技术领域,公开一种识别文档章节标题的方法,包括:确定文档中的至少一个段落;获取各段落的格式特征、段落向量和正则匹配特征;所述正则匹配特征用于表征各段落对预设字符的正则匹配结果;根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在文档中是否为章节标题。这种方式不需要用户人工判断文档中的各段落是否为章节标题,不但提高了识别文档中的段落是否为章节标题的效率,还便于自动根据确定为章节标题的段落自动生成目录。本申请还公开一种识别文档章节标题的装置、电子设备、存储介质。
基本信息
专利标题 :
识别文档章节标题的方法及装置、电子设备、存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114330313A
申请号 :
CN202111449645.X
公开(公告)日 :
2022-04-12
申请日 :
2021-11-30
授权号 :
暂无
授权日 :
暂无
发明人 :
王伟华潘云嵩张家瑞
申请人 :
广州金山移动科技有限公司;珠海金山办公软件有限公司;北京金山办公软件股份有限公司;武汉金山办公软件有限公司
申请人地址 :
广东省广州市天河区建中路60号六楼
代理机构 :
北京康盛知识产权代理有限公司
代理人 :
陶俊洁
优先权 :
CN202111449645.X
主分类号 :
G06F40/258
IPC分类号 :
G06F40/258
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/258
标题提取;自动给出标题、编号
法律状态
2022-04-29 :
实质审查的生效
IPC(主分类) : G06F 40/258
申请日 : 20211130
申请日 : 20211130
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载