实现高质量文本相似度计算的SimBlock算法及实现方法
实质审查的生效
摘要
针对大数据文本排重场景,如:搜索引擎、资讯专题模块聚合,内容原创和内容剽窃的识别,以及重复灌水帖子、评论相关的内容治理等。本发明一个技术方案是提供了一种能实现相似度计算的SimBlock算法(相似分块矩阵算法),弥补了传统相似度算法“字符交集”和“字符串向量化余弦”丢失有序信息的缺陷,补充局域有序信息,提高相似度计算质量:给出的相似度打分对两个字符串的长度不敏感,还能判断逻辑包含关系,相似子字符串的位置和一一对应关系。本发明的另一个技术方案是提供了一种上述算法适用的分布式计算技术架构,将高并发计算压力分解到高并行度的算法微服务集群中,将高并发读写压力也分解到高速缓存集群中,使得多进程Source/Trans./Sink单体保持轻量级。
基本信息
专利标题 :
实现高质量文本相似度计算的SimBlock算法及实现方法
专利标题(英):
暂无
公开(公告)号 :
CN114417810A
申请号 :
CN202111636855.X
公开(公告)日 :
2022-04-29
申请日 :
2021-12-29
授权号 :
暂无
授权日 :
暂无
发明人 :
罗伟杰
申请人 :
东方财富信息股份有限公司
申请人地址 :
上海市徐汇区宛平南路88号金座28F
代理机构 :
上海申汇专利代理有限公司
代理人 :
翁若莹
优先权 :
CN202111636855.X
主分类号 :
G06F40/194
IPC分类号 :
G06F40/194 G06F16/35 G06F16/903
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/194
计算文件之间的差异
法律状态
2022-05-20 :
实质审查的生效
IPC(主分类) : G06F 40/194
申请日 : 20211229
申请日 : 20211229
2022-04-29 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载