一种翻译语料库的匹配方法
授权
摘要
一种翻译语料库的匹配方法,包括:获取待匹配语料库数据,将待匹配的原文和对应的ID进行处理;翻译语料库数据与待匹配数据大致匹配得到集合p,待匹配数据与集合p进行详细匹配,得到最佳匹配的数据:p循环结束后scores倒序得到最佳的匹配结果。本发明利用二维数组获取两个字符串的相似度,取左边值+1,上边值+1,若左边值+1,上边值+1不相等取左上角+1的值,若左边值+1,上边值+1相等取左上角的值,最终取左边值+1和上边值+1和左上角最终值的最小值,从而得到两个字符串的匹配度。本发明相比于海明距离匹配方法和Jaccard相似度匹配方法匹配召回率增高明显。
基本信息
专利标题 :
一种翻译语料库的匹配方法
专利标题(英):
暂无
公开(公告)号 :
CN113919371A
申请号 :
CN202111039403.3
公开(公告)日 :
2022-01-11
申请日 :
2021-09-06
授权号 :
CN113919371B
授权日 :
2022-05-31
发明人 :
江心波
申请人 :
山东智慧译百信息技术有限公司
申请人地址 :
山东省济南市历城区二环东路3966号东环国际广场1-1804-2
代理机构 :
济南竹森知识产权代理事务所(普通合伙)
代理人 :
吕利敏
优先权 :
CN202111039403.3
主分类号 :
G06F40/49
IPC分类号 :
G06F40/49 G06F16/903
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/49
使用非常大的语料库,例如 Web
法律状态
2022-05-31 :
授权
2022-01-28 :
实质审查的生效
IPC(主分类) : G06F 40/49
申请日 : 20210906
申请日 : 20210906
2022-01-11 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN113919371A.PDF
PDF下载