生成文本纠错模型训练语料的方法、装置、设备及介质
授权
摘要
本发明公开了一种生成文本纠错模型训练语料的方法、装置、设备及介质,用以提高文本纠错模型的训练语料的质量。由于本发明实施例可以针对预设的每个被掩码字词的属性信息,根据初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从初始语料中,选取该属性信息及该掩码比例的被掩码字词,并对选取的被掩码字词进行掩码,以生成训练语料。相比现有技术,从初始语料中随机选取被掩码字词的方式而言,本发明实施例中选取的被掩码字词为初始语料中相对比较容易出错或比较重要的字词等,所以本发明实施例的训练语料的质量较高,基于本发明实施例的训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。
基本信息
专利标题 :
生成文本纠错模型训练语料的方法、装置、设备及介质
专利标题(英):
暂无
公开(公告)号 :
CN113343674A
申请号 :
CN202110776500.4
公开(公告)日 :
2021-09-03
申请日 :
2021-07-09
授权号 :
CN113343674B
授权日 :
2022-04-01
发明人 :
张阳蒋红宇安晓江
申请人 :
北京海泰方圆科技股份有限公司
申请人地址 :
北京市海淀区东北旺西路8号中关村软件园9号楼国际软件大厦E座一层、二层
代理机构 :
北京同达信恒知识产权代理有限公司
代理人 :
王媛媛
优先权 :
CN202110776500.4
主分类号 :
G06F40/253
IPC分类号 :
G06F40/253 G06K9/62
相关图片
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/253
语法分析;结构鉴定
法律状态
2022-04-01 :
授权
2021-09-21 :
实质审查的生效
IPC(主分类) : G06F 40/253
申请日 : 20210709
申请日 : 20210709
2021-09-03 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
1、
CN113343674A.PDF
PDF下载