基于大数据的自然语言处理模型构建方法
授权
摘要
本发明提出了一种基于大数据的自然语言处理模型构建方法,首先,构建文本分类模型;采用嵌入语言模型获取输出词向量输出序列;将词向量输出序列表示分为正序序列和逆序序列,分别计算所述正序序列和逆序序列的概率分布,得到正序语义编码和逆序语义编码,最终输出特征编码;其次基于所述最终输出的特征编码进行语义信息分类,将目标特征编码与两个子集进行比较,其中将具有较高匹配度的子集标记为目标特征编码的所属集合。通过词向量表示单元、特征提取单元和概率分布计算单元来联合优化自然语言处理模型,这样能够显著提高词嵌入深度学习模型的泛化能力。
基本信息
专利标题 :
基于大数据的自然语言处理模型构建方法
专利标题(英):
暂无
公开(公告)号 :
CN114328939A
申请号 :
CN202210260578.5
公开(公告)日 :
2022-04-12
申请日 :
2022-03-17
授权号 :
CN114328939B
授权日 :
2022-05-27
发明人 :
李晋刘宇鹏
申请人 :
天津思睿信息技术有限公司
申请人地址 :
天津市滨海新区高新区滨海科技园高新六路39号2号楼2单元201-10号
代理机构 :
天津合正知识产权代理有限公司
代理人 :
吕琦
优先权 :
CN202210260578.5
主分类号 :
G06F16/35
IPC分类号 :
G06F16/35 G06F40/284 G06F40/216
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F16/35
••聚类;分类
法律状态
2022-05-27 :
授权
2022-04-29 :
实质审查的生效
IPC(主分类) : G06F 16/35
申请日 : 20220317
申请日 : 20220317
2022-04-12 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载