一种高效的短文本相似性确定方法和装置
实质审查的生效
摘要
本公开的一方面涉及一种高效的短文本相似性确定方法,包括对语料库中的短文本进行分词以获得对应的词序列;基于所述语料库中的短文本总数确定惩罚,所述惩罚随所述语料库中的短文本总数增大而减小;确定所述词序列中每个词的词频和调整后的逆文档频率,其中所述调整后的逆文档频率基于所述惩罚来计算;用所述调整后的逆文档频率对每个词的词频进行加权;组合所述词序列中每个词的加权词频以确定所述短文本的词频向量;以及基于所述词频向量来确定所述短文本与其他短文本的相似性。本公开还涉及其他相关方面。
基本信息
专利标题 :
一种高效的短文本相似性确定方法和装置
专利标题(英):
暂无
公开(公告)号 :
CN114418016A
申请号 :
CN202210078359.5
公开(公告)日 :
2022-04-29
申请日 :
2022-01-24
授权号 :
暂无
授权日 :
暂无
发明人 :
刘东亚
申请人 :
支付宝(杭州)信息技术有限公司
申请人地址 :
浙江省杭州市西湖区西溪路556号8层B段801-11
代理机构 :
上海专利商标事务所有限公司
代理人 :
钱孟清
优先权 :
CN202210078359.5
主分类号 :
G06K9/62
IPC分类号 :
G06K9/62 G06F40/289 G06F40/216
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06K
数据识别;数据表示;记录载体;记录载体的处理
G06K9/00
用于阅读或识别印刷或书写字符或者用于识别图形,例如,指纹的方法或装置
G06K9/62
应用电子设备进行识别的方法或装置
法律状态
2022-05-20 :
实质审查的生效
IPC(主分类) : G06K 9/62
申请日 : 20220124
申请日 : 20220124
2022-04-29 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载