搜索文本的处理方法、装置、设备、存储介质和程序产品
公开
摘要
本申请涉及一种搜索文本的处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取用于搜索商品的搜索文本;基于对从商品语料库中提取的商品词进行纠错得到商品词库,对搜索文本进行分词处理,得到词序列;将词序列中的单独字与单独字的邻近词所构成的短语,作为搜索文本中的潜在错别词;基于拼音编辑距离,查找用于纠正潜在错别词的候选词;使用通过纠错后的商品语料库对语言模型进行训练得到的商品词语言模型,确定潜在错别词及各候选词的语句通顺度;当潜在错别词与目标候选词的语句通顺度满足替换条件时,将搜索文本中的潜在错别词替换为目标候选词,得到纠错文本。该方法适用于商品搜索场景中。
基本信息
专利标题 :
搜索文本的处理方法、装置、设备、存储介质和程序产品
专利标题(英):
暂无
公开(公告)号 :
CN114328798A
申请号 :
CN202111321869.2
公开(公告)日 :
2022-04-12
申请日 :
2021-11-09
授权号 :
暂无
授权日 :
暂无
发明人 :
余自强
申请人 :
腾讯科技(深圳)有限公司
申请人地址 :
广东省深圳市南山区高新区科技中一路腾讯大厦35层
代理机构 :
华进联合专利商标代理有限公司
代理人 :
郑义
优先权 :
CN202111321869.2
主分类号 :
G06F16/31
IPC分类号 :
G06F16/31 G06F16/33 G06F16/35 G06F16/36 G06F40/232 G06F40/289
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/31
••索引;其数据结构;存储结构
法律状态
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载