基于自适应变分编码器的短文本聚类方法
公开
摘要
基于自适应变分编码器的短文本聚类方法涉及文本聚类技术领域。首先,对短文本使用sentence‑Bert的方法进行文本表示;其次,使用自编码器将向量转化为低维特征向量,使用K‑means方法提取聚类中心;然后,使用聚类中心作为变分自编码器的期望均值对于输入向量进行预训练,转化为满足以聚类中心为期望均值的分布的特征向量;将特征向量根据K‑means算法构建分类器,通过分类后的分布对分类器与编码器的权重进行微调。最后根据微调后的编码器与分类器得到聚类结果。本发明能够很好的处理短文本聚类中的文本向量高维稀疏的问题,为短文本聚类提供了新的特征深度嵌入算法。
基本信息
专利标题 :
基于自适应变分编码器的短文本聚类方法
专利标题(英):
暂无
公开(公告)号 :
CN114625879A
申请号 :
CN202210299111.1
公开(公告)日 :
2022-06-14
申请日 :
2022-03-13
授权号 :
暂无
授权日 :
暂无
发明人 :
范青武王子栋
申请人 :
北京工业大学
申请人地址 :
北京市朝阳区平乐园100号
代理机构 :
北京思海天达知识产权代理有限公司
代理人 :
刘萍
优先权 :
CN202210299111.1
主分类号 :
G06F16/35
IPC分类号 :
G06F16/35 G06N3/04 G06N3/08
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/35
••聚类;分类
法律状态
2022-06-14 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载