样本生成方法、模型训练方法、实体识别方法及相关装置
公开
摘要
本说明书一个或多个实施例公开了一种样本生成方法、模型训练方法、实体识别方法及相关装置,该方法包括:通过已标注第一样本对预设语言识别模型进行预训练,得到初始模型;然后,基于该初始模型对实体词典中实体数据进行预测打分,输出识别结果;如果识别结果中预测实体类型与实体数据在实体词典中的真实实体类型无重合,则对识别结果进行实体类型修正,使得修正后的识别结果中包含真实实体类型,进而将所有修正后的识别结果汇总为第二样本。该方案仅使用已标注第一样本即可通过弱监督标注的方式生成大量弱标注第二样本,在一定程度上缓解了标注样本获取困难的问题,提升了标注样本的生成效率;进而提升模型训练以及识别性能。
基本信息
专利标题 :
样本生成方法、模型训练方法、实体识别方法及相关装置
专利标题(英):
暂无
公开(公告)号 :
CN114611513A
申请号 :
CN202210061372.X
公开(公告)日 :
2022-06-10
申请日 :
2022-01-19
授权号 :
暂无
授权日 :
暂无
发明人 :
陈贝
申请人 :
达闼机器人股份有限公司
申请人地址 :
上海市闵行区中青路207号8幢
代理机构 :
北京太合九思知识产权代理有限公司
代理人 :
张爱
优先权 :
CN202210061372.X
主分类号 :
G06F40/295
IPC分类号 :
G06F40/295 G06F40/242 G06N20/00
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/295
命名实体识别
法律状态
2022-06-10 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载