一种数据增强方法、文本分类模型的训练方法和装置

实质审查的生效

摘要

本申请提出一种数据增强方法、文本分类模型的训练方法和装置，涉及文本分类技术领域。为解决现有技术中文本分类的准确率较低的问题而发明。包括S10、获取文本分类的至少一个初始训练文本和对应类别；S20、根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数，分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理，得到第一数量的增强数据；S30、判断得到的增强数据是否符合预设数据规则；如果是，执行步骤S40；否则，执行所述步骤S20；S40、将所述至少一个初始训练文本和对应类别与所有增强数据和对应类别混合，得到增强训练集。

基本信息

专利标题：

一种数据增强方法、文本分类模型的训练方法和装置

专利标题（英）：

暂无

公开（公告）号：

CN114491048A

申请号：

CN202210143275.5

公开（公告）日：

2022-05-13

申请日：

2022-02-16

授权号：

暂无

授权日：

暂无

发明人：

张盼盼袁一涵林星白兴安徐扬

申请人：

北京微播易科技股份有限公司

申请人地址：

北京市海淀区紫竹院路广源闸5号广源大厦3层83073号

代理机构：

北京瀚群律师事务所

代理人：

王姗姗

优先权：

CN202210143275.5

主分类号：

G06F16/35

IPC分类号：

G06F16/35 G06F40/289 G06K9/62

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F16/35

••聚类；分类

法律状态

2022-05-31 ：

实质审查的生效

IPC(主分类) : G06F 16/35
申请日 : 20220216

2022-05-13 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载