训练模型的方法、命名实体识别方法和装置
公开
摘要
本申请的实施例提供了一种训练模型的方法、命名实体识别方法和装置,该模型训练方法包括:获取具有标记的样本集;将文本信息输入预训练的BERT模型,得到对应文本信息的特征向量;在特征向量中注入对抗扰动生成对抗样本;将对抗样本作为条件随机场的输入,将标注字符作为条件随机场的输出,以最大化真实标注序列的对数概率为目的训练条件随机场,以完成识别模型的训练。本申请由于在训练过程中增加对抗样本,从而能够增强字的语义表示,挖掘企业描述文本的局部特征以及字的多重语义信息,同时能够增强模型的稳健型和泛化能力,进而提高了中文企业主营产品命名实体识别的准确率、查全率和识别效率。
基本信息
专利标题 :
训练模型的方法、命名实体识别方法和装置
专利标题(英):
暂无
公开(公告)号 :
CN114611514A
申请号 :
CN202210082318.3
公开(公告)日 :
2022-06-10
申请日 :
2022-01-24
授权号 :
暂无
授权日 :
暂无
发明人 :
蔡青山王永强
申请人 :
企知道网络技术有限公司
申请人地址 :
广东省深圳市南山区西丽街道西丽社区留仙大道创智云城1标段1栋D座2201
代理机构 :
代理人 :
优先权 :
CN202210082318.3
主分类号 :
G06F40/295
IPC分类号 :
G06F40/295 G06F40/30 G06N3/04 G06N3/08
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/295
命名实体识别
法律状态
2022-06-10 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载