用于文档自动识别入库的方法
授权
摘要

本发明涉及一种用于文档自动识别入库的方法,包括以下步骤:基于语料库对接入的一个或多个文档依次进行分词处理,从而得到一个或多个文档的分词结果;所述语料库包括通用字典、标准表字典;构建关联词库,所述关联词库包括若干数据表,每个数据表具有多个字段,其中第一个字段为该数据表的内码;对分词结果进行关联关系标记,关联词库通过关联关系标记,从分词结果中选出与关联词库的字段对应的分词结果,将选出的分词结果插入关联词库的字段中,从而对接入的文档完成识别入库。本发明通过模型训练和语料管理对不同的文档进行快速正确的分词,分词后通过和关联词库的对应关系可以实现有用信息的快速入库,真正实现对文档内容进行识别入库。

基本信息
专利标题 :
用于文档自动识别入库的方法
专利标题(英):
暂无
公开(公告)号 :
CN113627154A
申请号 :
CN202110896764.3
公开(公告)日 :
2021-11-09
申请日 :
2021-08-05
授权号 :
CN113627154B
授权日 :
2022-04-12
发明人 :
王菊于鹏飞崔君赵野徐璐
申请人 :
成都中世顺朗科技有限公司;中国人民解放军31432部队
申请人地址 :
四川省成都市武侯区武侯新城新城管委会武兴四路166号2栋
代理机构 :
北京市领专知识产权代理有限公司
代理人 :
王莹莹
优先权 :
CN202110896764.3
主分类号 :
G06F40/216
IPC分类号 :
G06F40/216  G06F40/242  G06F40/284  G06F40/30  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/216
使用统计方法
法律状态
2022-04-12 :
授权
2021-11-26 :
实质审查的生效
IPC(主分类) : G06F 40/216
申请日 : 20210805
2021-11-09 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332