一种基于深度学习的行业文本匹配模型方法及装置

实质审查的生效

摘要

本发明公开了一种基于深度学习的行业文本匹配模型方法及装置，其中，该方法包括：获取预设个数的跨行业数据作为训练集以得到待匹配语句；输入基于深度学习的行业文本匹配模型NERB，经过数据预处理后分别输入优化后的预训练模型NEZHA、RoBERTa和ERNIE‑Gram；经过化后的预训练模型匹配后输出三个文本匹配结果；综合判断，当存在任意两种文本匹配结果或三种文本匹配结果输出为相似时，行业文本匹配模型的输出结果判为相似，否则为不相似。本发明通过引入大规模跨行业数据作为训练集、集成应用多个具有中文特色的预训练模型优势，可以解决不同细分行业如制造业中的汽车生产线技术参考、医疗行业中的患者咨询、商业领域中的交易搜索等多种应用领域的语义匹配问题。

基本信息

专利标题：

一种基于深度学习的行业文本匹配模型方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN114282592A

申请号：

CN202111369472.0

公开（公告）日：

2022-04-05

申请日：

2021-11-15

授权号：

暂无

授权日：

暂无

发明人：

吴军王得强关立文

申请人：

清华大学

申请人地址：

北京市海淀区清华园

代理机构：

北京清亦华知识产权代理事务所(普通合伙)

代理人：

单冠飞

优先权：

CN202111369472.0

主分类号：

G06K9/62

IPC分类号：

G06K9/62 G06N3/04 G06N3/08

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06K

数据识别；数据表示；记录载体；记录载体的处理

G06K9/00

用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置

G06K9/62

应用电子设备进行识别的方法或装置

法律状态

2022-04-22 ：

实质审查的生效

IPC(主分类) : G06K 9/62
申请日 : 20211115

2022-04-05 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载