基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
授权
摘要

本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题,本发明提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。此外,本发明能够自动识别文本集类的数目,改进了传统文本集类数目需要人为提前给定的情况。

基本信息
专利标题 :
基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
专利标题(英):
暂无
公开(公告)号 :
CN107798043A
申请号 :
CN201710504980.2
公开(公告)日 :
2018-03-13
申请日 :
2017-06-28
授权号 :
CN107798043B
授权日 :
2022-05-03
发明人 :
黄瑞章闫盈盈马灿徐立洋丁志远王瑞黄庭刘博伟
申请人 :
贵州大学;贵州耕云科技有限公司
申请人地址 :
贵州省贵阳市花溪区贵州大学北校区科学技术处
代理机构 :
贵阳中新专利商标事务所
代理人 :
李亮
优先权 :
CN201710504980.2
主分类号 :
G06F17/30
IPC分类号 :
G06F17/30  
相关图片
法律状态
2022-05-03 :
授权
2018-04-06 :
实质审查的生效
IPC(主分类) : G06F 17/30
申请日 : 20170628
2018-03-13 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN107798043A.PDF
PDF下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332