一种单字错别字识别模型的训练方法及其训练集生成方法

实质审查的生效

摘要

本发明提供一种生成用于单字错别字识别模型的训练集的方法，包括：S1、获取语料库，对语料库中的各语句进行分词处理和词性标注，得到多个原始分词序列，每个原始分词序列包括多个分词项以及每个分词项的词性；S2、基于原始分词序列构建各分词项的标签，得到标签序列，其中初始的标签值指示每个分词项对应的文字是正确文字；S3、将相应原始分词序列中一个为单字的分词项替换为与相应单字相似的错误单字，得到带错字分词序列，并更改相应标签序列中单字被替换的分词项对应的标签值以指示其对应的单字为错误文字；S4、重复步骤S3，构建包括多个样本的训练集，每个样本包括分词序列及对应的标签序列，分词序列为原始分词序列或者带错字分词序列。

基本信息

专利标题：

一种单字错别字识别模型的训练方法及其训练集生成方法

专利标题（英）：

暂无

公开（公告）号：

CN114266244A

申请号：

CN202111610175.0

公开（公告）日：

2022-04-01

申请日：

2021-12-27

授权号：

暂无

授权日：

暂无

发明人：

曹阳曹存根王石

申请人：

中国科学院计算技术研究所

申请人地址：

北京市海淀区中关村科学院南路6号

代理机构：

北京泛华伟业知识产权代理有限公司

代理人：

王勇

优先权：

CN202111610175.0

主分类号：

G06F40/232

IPC分类号：

G06F40/232 G06F40/268 G06F40/284 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F40/232

拼写校正，例如拼写差错程序或加元音符

法律状态

2022-04-19 ：

实质审查的生效

IPC(主分类) : G06F 40/232
申请日 : 20211227

2022-04-01 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载