基于特征重要度的长文本分类方法、装置和计算机设备
公开
摘要

本申请涉及一种基于特征重要度的长文本分类方法、装置和计算机设备。所述方法包括:获取待分类的原始文本语料;待分类的原始文本语料包含多个长文本;对长文本进行数据处理,得到原始文本;根据BoW模型对原始文本进行特征寻找,得到特征字段;利用梯度推进分类器计算特征字段的重要性,将特征字段的重要性从高到低排列,得到特征字段重要度排列表;从原始文本中选择头部和尾部的数量字段添作为新文本的开头和结尾,根据特征字段重要度排列表来从原始文本中搜索字段填充新文本,得到标准长度的文本;利用分类模型对标准长度的文本进行分类,得到分类结果。采用本发明能够提高文本分类效率。

基本信息
专利标题 :
基于特征重要度的长文本分类方法、装置和计算机设备
专利标题(英):
暂无
公开(公告)号 :
CN114579752A
申请号 :
CN202210498941.7
公开(公告)日 :
2022-06-03
申请日 :
2022-05-09
授权号 :
暂无
授权日 :
暂无
发明人 :
戴超凡何华邓苏吴亚辉马武彬周浩浩
申请人 :
中国人民解放军国防科技大学
申请人地址 :
湖南省长沙市开福区德雅路109号
代理机构 :
长沙国科天河知识产权代理有限公司
代理人 :
段盼姣
优先权 :
CN202210498941.7
主分类号 :
G06F16/35
IPC分类号 :
G06F16/35  G06K9/62  
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/35
••聚类;分类
法律状态
2022-06-03 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332