基于结合图结构信息和文本语义模型的实体对齐方法
公开
摘要
本发明公开了基于结合图结构信息和文本语义模型的实体对齐方法,属于计算机网络技术领域,通过提取非结构化文本数据实体信息、实体属性信息和实体关系信息,并组成原始三元组数据,生成基于图结构实体嵌入表示,并计算不同实体间余弦相似度,提取实体在原文中上下文关于机构和人名信息,用作实体辅助描述信息,计算不同实体间描述信息是否有交集,计算不同实体名称编辑距离、word2vec余弦相似度,基于预训练模型计算不同实体名称语义相似度,综合相似度得分以判定两个实体是否为同一实体,本发明综合利用图结构信息、字符信息和语义信息来判定实体之间相似度,充分利用实体图结构信息和语义信息进行实体对齐,提高在共有信息稀疏时对齐的准确度。
基本信息
专利标题 :
基于结合图结构信息和文本语义模型的实体对齐方法
专利标题(英):
暂无
公开(公告)号 :
CN114417809A
申请号 :
CN202111616769.2
公开(公告)日 :
2022-04-29
申请日 :
2021-12-27
授权号 :
暂无
授权日 :
暂无
发明人 :
董嘉诚杨磊
申请人 :
北京滴普科技有限公司
申请人地址 :
北京市海淀区彩和坊路8号4层406
代理机构 :
北京中政联科专利代理事务所(普通合伙)
代理人 :
赖学能
优先权 :
CN202111616769.2
主分类号 :
G06F40/189
IPC分类号 :
G06F40/189 G06F40/279
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/189
自动整版
法律状态
2022-04-29 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载