一种文本聚合方法以及文本推荐方法
实质审查的生效
摘要
本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
基本信息
专利标题 :
一种文本聚合方法以及文本推荐方法
专利标题(英):
暂无
公开(公告)号 :
CN114443820A
申请号 :
CN202210177000.3
公开(公告)日 :
2022-05-06
申请日 :
2022-02-25
授权号 :
暂无
授权日 :
暂无
发明人 :
贺广福薛源海陈翠婷俞晓明刘悦沈华伟程学旗
申请人 :
中国科学院计算技术研究所
申请人地址 :
北京市海淀区中关村科学院南路6号
代理机构 :
北京泛华伟业知识产权代理有限公司
代理人 :
王勇
优先权 :
CN202210177000.3
主分类号 :
G06F16/33
IPC分类号 :
G06F16/33 G06F16/31 G06F40/216 G06F40/237 G06F40/284
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/33
••查询
法律状态
2022-05-24 :
实质审查的生效
IPC(主分类) : G06F 16/33
申请日 : 20220225
申请日 : 20220225
2022-05-06 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载