一种多语言的术语识别和双语术语对齐方法
实质审查的生效
摘要
一种多语言的术语识别和双语术语对齐方法,包括如下步骤:步骤S1:数据集获取;步骤S2:分词标注;步骤S3:模型训练,输出每个词是否为术语;步骤S4:词向量加载;步骤S5:词向量相似度计算;步骤S6:词对齐:步骤S7:术语对齐;根据词对齐结果,查询对应的术语译文。本发明克服了现有技术的不足,不再依赖多语言术语库,相对来说,成本更低,准确率更高。并且本发明支持多语言,之前针对于不同的语言都要调用机器翻译,现在利用多语言蒸馏后的模型,成本大大降低,准确率也有显著提高。
基本信息
专利标题 :
一种多语言的术语识别和双语术语对齐方法
专利标题(英):
暂无
公开(公告)号 :
CN114357975A
申请号 :
CN202210018101.6
公开(公告)日 :
2022-04-15
申请日 :
2022-01-07
授权号 :
暂无
授权日 :
暂无
发明人 :
陈件潘丽婷张井
申请人 :
上海一者信息科技有限公司
申请人地址 :
上海市杨浦区隆昌路588_1号1210室
代理机构 :
上海骁象知识产权代理有限公司
代理人 :
赵俊寅
优先权 :
CN202210018101.6
主分类号 :
G06F40/211
IPC分类号 :
G06F40/211 G06F40/247 G06F40/289 G06F40/30 G06F40/58 G06K9/62
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/211
句法分析,例如 基于无上下文语法或统一语法
法律状态
2022-05-03 :
实质审查的生效
IPC(主分类) : G06F 40/211
申请日 : 20220107
申请日 : 20220107
2022-04-15 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载