基于大数据的自然语言处理模型构建方法

授权

摘要

本发明提出了一种基于大数据的自然语言处理模型构建方法，首先，构建文本分类模型；采用嵌入语言模型获取输出词向量输出序列；将词向量输出序列表示分为正序序列和逆序序列，分别计算所述正序序列和逆序序列的概率分布，得到正序语义编码和逆序语义编码，最终输出特征编码；其次基于所述最终输出的特征编码进行语义信息分类，将目标特征编码与两个子集进行比较，其中将具有较高匹配度的子集标记为目标特征编码的所属集合。通过词向量表示单元、特征提取单元和概率分布计算单元来联合优化自然语言处理模型，这样能够显著提高词嵌入深度学习模型的泛化能力。

基本信息

专利标题：

基于大数据的自然语言处理模型构建方法

专利标题（英）：

暂无

公开（公告）号：

CN114328939A

申请号：

CN202210260578.5

公开（公告）日：

2022-04-12

申请日：

2022-03-17

授权号：

CN114328939B

授权日：

2022-05-27

发明人：

李晋刘宇鹏

申请人：

天津思睿信息技术有限公司

申请人地址：

天津市滨海新区高新区滨海科技园高新六路39号2号楼2单元201-10号

代理机构：

天津合正知识产权代理有限公司

代理人：

吕琦

优先权：

CN202210260578.5

主分类号：

G06F16/35

IPC分类号：

G06F16/35 G06F40/284 G06F40/216

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F16/35

••聚类；分类

法律状态

2022-05-27 ：

授权

2022-04-29 ：

实质审查的生效

IPC(主分类) : G06F 16/35
申请日 : 20220317

2022-04-12 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载