文本分类场景下基于对抗训练的数据增强方法
公开
摘要
本发明公开了一种文本分类场景下基于对抗训练的数据增强方法:通过对训练集中的原始样本xi进行回译,生成一个样本序列集合D′={x′i,y′i}1...N;对释义样本x′i进行词嵌入过程,得到pθ(x′i);对释义样本x′i进行对抗训练,得到对抗样本原始样本xi经过词嵌入过程,得到pθ(xi),对抗样本经过加入扰动的词嵌入过程,得到计算得到原始样本和对抗样本的对比损失;计算得到的对比损失如果满足预先设定的阈值范围,将生成的对抗样本加入到原始数据集中,一并送到分类模型中进行模拟,得到模拟分类准确率结果。本发明通过将对抗训练与回译、随机噪声注入、交叉增强等数据增强技术相组合,得到最高质量、最具多样性的增强样本。
基本信息
专利标题 :
文本分类场景下基于对抗训练的数据增强方法
专利标题(英):
暂无
公开(公告)号 :
CN114564587A
申请号 :
CN202210226132.0
公开(公告)日 :
2022-05-31
申请日 :
2022-03-08
授权号 :
暂无
授权日 :
暂无
发明人 :
李剑冯雪松于永新
申请人 :
天津大学
申请人地址 :
天津市津南区海河教育园雅观路135号
代理机构 :
天津市北洋有限责任专利代理事务所
代理人 :
吴学颖
优先权 :
CN202210226132.0
主分类号 :
G06F16/35
IPC分类号 :
G06F16/35 G06F40/58 G06N20/00
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/35
••聚类;分类
法律状态
2022-05-31 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载