一种基于序列标注模型的多语言文本纠错方法
实质审查的生效
摘要
一种基于序列标注模型的多语言文本纠错方法,包括以下步骤:步骤S1:语料数据收集;步骤S2:数据生成;以多语言维基百科语料作为正例,对句子进行分词,并随机选取15%的单词或者字,进行删除、插入或替换操作,以生成负例;步骤S3:数据标注;生成文本错误检测标签和纠正行为标签;并对文本错误检测标签和纠正行为标签分别进行分类标注;步骤S4:文本纠错序列标注模型训练;步骤S5:文本纠错备选项生成。本发明克服了现有技术的不足,解决了需要为每个语种建立一个文本纠错模型的高昂本高和维护困难的问题。
基本信息
专利标题 :
一种基于序列标注模型的多语言文本纠错方法
专利标题(英):
暂无
公开(公告)号 :
CN114372463A
申请号 :
CN202210023205.6
公开(公告)日 :
2022-04-19
申请日 :
2022-01-10
授权号 :
暂无
授权日 :
暂无
发明人 :
李梅潘丽婷陈件张井
申请人 :
李梅;上海一者信息科技有限公司
申请人地址 :
上海市杨浦区同济新村507号101室
代理机构 :
上海骁象知识产权代理有限公司
代理人 :
赵俊寅
优先权 :
CN202210023205.6
主分类号 :
G06F40/289
IPC分类号 :
G06F40/289 G06F40/242 G06F40/117 G06F16/35
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/289
短语分析,例如有限状态技术或分块
法律状态
2022-05-06 :
实质审查的生效
IPC(主分类) : G06F 40/289
申请日 : 20220110
申请日 : 20220110
2022-04-19 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载