一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
授权
摘要
本发明公开了一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置,所述方法包括:步骤一,获取文本数据;步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;步骤五,剔除相似度低于阈值ε的文本对;步骤六,对剩下的文本对进行聚合,产生聚类类别;步骤七,将产生的聚类类别存储内存数据库;步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别。本发明采用分布式架构和分布式计算模型,在处理速度上有明显提高,还可以提高文本聚类的效果。
基本信息
专利标题 :
一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
专利标题(英):
暂无
公开(公告)号 :
CN111324737A
申请号 :
CN202010207097.9
公开(公告)日 :
2020-06-23
申请日 :
2020-03-23
授权号 :
CN111324737B
授权日 :
2022-04-22
发明人 :
姚春华曾曦肖杰罗殊彦
申请人 :
中国电子科技集团公司第三十研究所
申请人地址 :
四川省成都市高新区创业路6号
代理机构 :
成都九鼎天元知识产权代理有限公司
代理人 :
夏琴
优先权 :
CN202010207097.9
主分类号 :
G06F16/35
IPC分类号 :
G06F16/35 G06F16/31
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/35
••聚类;分类
法律状态
2022-04-22 :
授权
2020-07-17 :
实质审查的生效
IPC(主分类) : G06F 16/35
申请日 : 20200323
申请日 : 20200323
2020-06-23 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载