一种基于深度学习的行业文本匹配模型方法及装置
实质审查的生效
摘要
本发明公开了一种基于深度学习的行业文本匹配模型方法及装置,其中,该方法包括:获取预设个数的跨行业数据作为训练集以得到待匹配语句;输入基于深度学习的行业文本匹配模型NERB,经过数据预处理后分别输入优化后的预训练模型NEZHA、RoBERTa和ERNIE‑Gram;经过化后的预训练模型匹配后输出三个文本匹配结果;综合判断,当存在任意两种文本匹配结果或三种文本匹配结果输出为相似时,行业文本匹配模型的输出结果判为相似,否则为不相似。本发明通过引入大规模跨行业数据作为训练集、集成应用多个具有中文特色的预训练模型优势,可以解决不同细分行业如制造业中的汽车生产线技术参考、医疗行业中的患者咨询、商业领域中的交易搜索等多种应用领域的语义匹配问题。
基本信息
专利标题 :
一种基于深度学习的行业文本匹配模型方法及装置
专利标题(英):
暂无
公开(公告)号 :
CN114282592A
申请号 :
CN202111369472.0
公开(公告)日 :
2022-04-05
申请日 :
2021-11-15
授权号 :
暂无
授权日 :
暂无
发明人 :
吴军王得强关立文
申请人 :
清华大学
申请人地址 :
北京市海淀区清华园
代理机构 :
北京清亦华知识产权代理事务所(普通合伙)
代理人 :
单冠飞
优先权 :
CN202111369472.0
主分类号 :
G06K9/62
IPC分类号 :
G06K9/62 G06N3/04 G06N3/08
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06K
数据识别;数据表示;记录载体;记录载体的处理
G06K9/00
用于阅读或识别印刷或书写字符或者用于识别图形,例如,指纹的方法或装置
G06K9/62
应用电子设备进行识别的方法或装置
法律状态
2022-04-22 :
实质审查的生效
IPC(主分类) : G06K 9/62
申请日 : 20211115
申请日 : 20211115
2022-04-05 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载