语料标签生成方法、装置、计算机设备和存储介质
授权
摘要
本申请涉及一种语料标签生成方法、装置、计算机设备和存储介质。方法包括:基于当前实体词汇表,对每一个语料样本进行分词处理,获取对应的多个词元素;统计每个词元素出现的次数,得到对应的词语频次;将词语频次处于预设的词语频次区间的词元素标记为实体词汇,更新当前实体词汇表;根据更新后的实体词汇表,对每一个语料样本再次分别进行分词处理,确定每个语料样本对应的语料关键词;对语料关键词进行聚类分析,根据聚类分析结果得到至少一个语料类别;对于每个语料类别,分别计算相应语料类别中的语料关键词的特征值,并将特征值满足条件的语料关键词作为相应语料类别的语料标签。采用本方法能够方便快捷且准确地生成语料标签。
基本信息
专利标题 :
语料标签生成方法、装置、计算机设备和存储介质
专利标题(英):
暂无
公开(公告)号 :
CN113095073A
申请号 :
CN202110270401.9
公开(公告)日 :
2021-07-09
申请日 :
2021-03-12
授权号 :
CN113095073B
授权日 :
2022-04-19
发明人 :
周炬邵俊
申请人 :
深圳索信达数据技术有限公司
申请人地址 :
广东省深圳市南山区高新南六道6号迈科龙大厦13层1301A室
代理机构 :
广州华进联合专利商标代理有限公司
代理人 :
杨欢
优先权 :
CN202110270401.9
主分类号 :
G06F40/289
IPC分类号 :
G06F40/289 G06F40/295 G06F40/216 G06F40/211 G06F40/30 G06F16/23 G06K9/62
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/289
短语分析,例如有限状态技术或分块
法律状态
2022-04-19 :
授权
2021-07-27 :
实质审查的生效
IPC(主分类) : G06F 40/289
申请日 : 20210312
申请日 : 20210312
2021-07-09 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载