双语词对齐方法和装置、训练双语词对齐模型的方法和装置
发明专利申请公布后的驳回
摘要
本发明提供了双语词对齐方法和装置、训练双语词对齐模型的方法和装置。本发明的双语词对齐方法,包括:利用进行了词对齐的标注的双语语料,训练双语词对齐模型;利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;利用上述扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。
基本信息
专利标题 :
双语词对齐方法和装置、训练双语词对齐模型的方法和装置
专利标题(英):
暂无
公开(公告)号 :
CN101030197A
申请号 :
CN200610058072.7
公开(公告)日 :
2007-09-05
申请日 :
2006-02-28
授权号 :
暂无
授权日 :
暂无
发明人 :
吴华王海峰刘占一
申请人 :
株式会社东芝
申请人地址 :
日本东京都
代理机构 :
北京市中咨律师事务所
代理人 :
李峥
优先权 :
CN200610058072.7
主分类号 :
G06F17/28
IPC分类号 :
G06F17/28
法律状态
2010-09-29 :
发明专利申请公布后的驳回
号牌文件类型代码 : 1602
号牌文件序号 : 101008024685
IPC(主分类) : G06F 17/28
专利申请号 : 2006100580727
公开日 : 20070905
号牌文件序号 : 101008024685
IPC(主分类) : G06F 17/28
专利申请号 : 2006100580727
公开日 : 20070905
2007-10-31 :
实质审查的生效
2007-09-05 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载