文本语料处理方法、装置、存储介质及电子设备
公开
摘要
本申请实施例公开了文本语料处理方法、装置、存储介质及电子设备,上述方法包括获取文本语料;对上述文本语料进行分词处理,得到上述文本语料对应的词序列;对上述词序列进行信息提取处理,得到上述词序列中每个词对应的特征信息和权重信息,上述权重信息根据上述词在上述词序列中的语义重要程度和位置重要程度确定;对上述每个词对应的特征信息进行哈希映射,得到上述每个词对应的编码信息;根据上述每个词对应的编码信息和对应的权重信息,得到上述每个词对应的加权编码信息;对各个词对应的编码信息进行融合操作,得到上述文本语料对应的文本信息。本申请可以提升文本语料去重速度和去重准确度。
基本信息
专利标题 :
文本语料处理方法、装置、存储介质及电子设备
专利标题(英):
暂无
公开(公告)号 :
CN114328818A
申请号 :
CN202111415376.5
公开(公告)日 :
2022-04-12
申请日 :
2021-11-25
授权号 :
暂无
授权日 :
暂无
发明人 :
石志林
申请人 :
腾讯科技(深圳)有限公司
申请人地址 :
广东省深圳市南山区高新区科技中一路腾讯大厦35层
代理机构 :
广州三环专利商标代理有限公司
代理人 :
熊永强
优先权 :
CN202111415376.5
主分类号 :
G06F16/33
IPC分类号 :
G06F16/33 G06F16/31 G06F40/126 G06F40/194 G06F40/258 G06F40/279 G06F40/30 G06N3/04 G06N3/08
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/33
••查询
法律状态
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载