实体抽取方法、第一实体抽取模型的训练方法及相关装置
实质审查的生效
摘要
本申请公开了一种实体抽取方法、第一实体抽取模型的训练方法及相关装置,该实体抽取方法包括:获取待抽取文本;将待抽取文本输入至训练后的第一实体抽取模型中以获得待抽取文本中的实体以及实体的类型;其中,训练第一实体抽取模型时利用噪声数据集;且噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合,且利用错误标注片段集合、正确标注片段集合和无意义标注片段集合训练第一实体抽取模型,而禁止漏标注片段集合加入训练过程。这样不仅提升了模型对带噪声数据的泛化性能,而且无需人工参与便可训练得到高泛化性的实体抽取方法。
基本信息
专利标题 :
实体抽取方法、第一实体抽取模型的训练方法及相关装置
专利标题(英):
暂无
公开(公告)号 :
CN114330320A
申请号 :
CN202111626958.8
公开(公告)日 :
2022-04-12
申请日 :
2021-12-28
授权号 :
暂无
授权日 :
暂无
发明人 :
张浩宇汪小斌吴飞方四安
申请人 :
合肥讯飞数码科技有限公司
申请人地址 :
安徽省合肥市(安徽)自由贸易试验区合肥市高新区望江西路666号人工智能云服务平台研发楼
代理机构 :
深圳市威世博知识产权代理事务所(普通合伙)
代理人 :
刘希
优先权 :
CN202111626958.8
主分类号 :
G06F40/279
IPC分类号 :
G06F40/279 G06F40/30 G06F40/205 G06N20/00
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/279
文字实体的识别
法律状态
2022-04-29 :
实质审查的生效
IPC(主分类) : G06F 40/279
申请日 : 20211228
申请日 : 20211228
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载