文本分类场景下基于对抗训练的数据增强方法

公开

摘要

本发明公开了一种文本分类场景下基于对抗训练的数据增强方法：通过对训练集中的原始样本x_i进行回译，生成一个样本序列集合D′＝{x′_i，y′_i}_1...N；对释义样本x′_i进行词嵌入过程，得到p_θ(x′_i)；对释义样本x′_i进行对抗训练，得到对抗样本原始样本x_i经过词嵌入过程，得到p_θ(x_i)，对抗样本经过加入扰动的词嵌入过程，得到计算得到原始样本和对抗样本的对比损失；计算得到的对比损失如果满足预先设定的阈值范围，将生成的对抗样本加入到原始数据集中，一并送到分类模型中进行模拟，得到模拟分类准确率结果。本发明通过将对抗训练与回译、随机噪声注入、交叉增强等数据增强技术相组合，得到最高质量、最具多样性的增强样本。

基本信息

专利标题：

文本分类场景下基于对抗训练的数据增强方法

专利标题（英）：

暂无

公开（公告）号：

CN114564587A

申请号：

CN202210226132.0

公开（公告）日：

2022-05-31

申请日：

2022-03-08

授权号：

暂无

授权日：

暂无

发明人：

李剑冯雪松于永新

申请人：

天津大学

申请人地址：

天津市津南区海河教育园雅观路135号

代理机构：

天津市北洋有限责任专利代理事务所

代理人：

吴学颖

优先权：

CN202210226132.0

主分类号：

G06F16/35

IPC分类号：

G06F16/35 G06F40/58 G06N20/00

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F16/35

••聚类；分类

法律状态

2022-05-31 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载