文本分类方法、系统、电子设备和存储介质
实质审查的生效
摘要
本发明公开了一种文本分类方法、系统、电子设备和存储介质。所述方法包括:获取待分类的文本及文本分类模型能处理的设定字节长度,所述文本分类模型为区分文本类型的模型;根据所述设定字节长度从所述文本的起始位置开始对所述文本进行切割;每对所述文本进行一次切割便向文本后部移动一个预设长度以获取下次切割位置;所述预设长度不超过所述设定字节长度;在每个所述切割位置根据所述设定字节长度对所述文本进行切割以得到一个或多个文本片段;将所述文本片段输入至所述文本分类模型,以获得每个所述文本片段的表征向量。通过这种方法突破了文本分类模型能处理的字节长度的限制,使得文本分类模型的处理能力以及处理效率都得到了提升。
基本信息
专利标题 :
文本分类方法、系统、电子设备和存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114462544A
申请号 :
CN202210136642.9
公开(公告)日 :
2022-05-10
申请日 :
2022-02-15
授权号 :
暂无
授权日 :
暂无
发明人 :
王森灏景志刚江小林罗超
申请人 :
携程旅游信息技术(上海)有限公司
申请人地址 :
上海市浦东新区张江高科技园区碧波路518号302室
代理机构 :
上海弼兴律师事务所
代理人 :
金学来
优先权 :
CN202210136642.9
主分类号 :
G06K9/62
IPC分类号 :
G06K9/62 G06N3/04
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06K
数据识别;数据表示;记录载体;记录载体的处理
G06K9/00
用于阅读或识别印刷或书写字符或者用于识别图形,例如,指纹的方法或装置
G06K9/62
应用电子设备进行识别的方法或装置
法律状态
2022-05-27 :
实质审查的生效
IPC(主分类) : G06K 9/62
申请日 : 20220215
申请日 : 20220215
2022-05-10 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载