文本相似性分析方法、装置、电子设备及计算机存储介质
授权
摘要

本申请涉及文本处理领域,公开了一种文本相似性分析方法、装置、电子设备及计算机可读存储介质,其中,文本相似性分析方法包括:确定目标文本的第一预设个数的基础特征词;接着基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词;接着基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本。本申请实施例的方法,极大扩充了抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,能够快速、准确地从预设文本数据库中甄选出目标文本的相似专利,极大提高专利相似性分析的准确度。

基本信息
专利标题 :
文本相似性分析方法、装置、电子设备及计算机存储介质
专利标题(英):
暂无
公开(公告)号 :
CN108804421A
申请号 :
CN201810522854.4
公开(公告)日 :
2018-11-13
申请日 :
2018-05-28
授权号 :
CN108804421B
授权日 :
2022-04-15
发明人 :
高影繁姚长青刘志辉崔笛李岩郑明
申请人 :
中国科学技术信息研究所
申请人地址 :
北京市海淀区复兴路15号
代理机构 :
北京市立方律师事务所
代理人 :
张筱宁
优先权 :
CN201810522854.4
主分类号 :
G06F17/27
IPC分类号 :
G06F17/27  G06F17/30  G06Q50/18  
相关图片
法律状态
2022-04-15 :
授权
2018-12-07 :
实质审查的生效
IPC(主分类) : G06F 17/27
申请日 : 20180528
2018-11-13 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN108804421A.PDF
PDF下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332