短信垃圾新词识别方法、装置及电子设备
授权
摘要
本申请公开了垃圾短信新词识别方法、装置、电子设备。其中,所述方法包括:获取短信集合;确定多个垃圾短信对应的候选词集合;根据短信类别信息,确定候选词的短信类别倾向性相关指标;以及,获取候选词的文档稀有性相关指标;根据短信类别倾向性相关指标和文档稀有性相关指标,确定候选词的垃圾短信新词得分;根据垃圾短信新词得分,从候选词集合中确定垃圾短信新词。采用这种处理方式,使得根据短信类别倾向性相关指标召回的大多数新词均对垃圾短信具有代表意义,避免召回很多正常的词汇;因此,可以有效提升召准率。同时,这种处理方式,使得根据文档稀有性的相关指标可召回低频的垃圾短信新词;因此,可以有效提升召全率。
基本信息
专利标题 :
短信垃圾新词识别方法、装置及电子设备
专利标题(英):
暂无
公开(公告)号 :
CN110909540A
申请号 :
CN201811076259.9
公开(公告)日 :
2020-03-24
申请日 :
2018-09-14
授权号 :
CN110909540B
授权日 :
2022-05-24
发明人 :
高喆康杨杨周笑添孙常龙刘晓钟司罗
申请人 :
阿里巴巴集团控股有限公司
申请人地址 :
英属开曼群岛大开曼资本大厦一座四层847号邮箱
代理机构 :
北京润泽恒知识产权代理有限公司
代理人 :
苏培华
优先权 :
CN201811076259.9
主分类号 :
G06F40/289
IPC分类号 :
G06F40/289 G06F40/30 G06F16/332
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/289
短语分析,例如有限状态技术或分块
法律状态
2022-05-24 :
授权
2020-04-17 :
实质审查的生效
IPC(主分类) : G06F 40/289
申请日 : 20180914
申请日 : 20180914
2020-03-24 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载