基于生成树的大规模生物数据聚类方法及系统
实质审查的生效
摘要

本发明提出了基于生成树的大规模生物数据聚类方法及系统,属于大规模基因组数据的数据处理技术领域,解决目前计算效率低的问题,包括:估计基因组序列之间的相似度;基于估计基因组序列之间的相似度流式计算基因组序列之间的距离矩阵和构建最小生成树,通过将距离矩阵划分成子图并且构建子最小生成树来生成最小生成树;剪断最小生成树中超过给定阈值长度的边来生成聚类结果。本发明采用sketch算法估计序列之间的相似度,由于sketch中k‑mer集合的维度远小于原始序列的维度,所以,采用sketch算法进行序列相似度分析的计算时间和空间占用远远小于直接进行原始数据精确比对。

基本信息
专利标题 :
基于生成树的大规模生物数据聚类方法及系统
专利标题(英):
暂无
公开(公告)号 :
CN114420215A
申请号 :
CN202210308561.2
公开(公告)日 :
2022-04-29
申请日 :
2022-03-28
授权号 :
暂无
授权日 :
暂无
发明人 :
刘卫国徐晓明殷泽坤
申请人 :
山东大学
申请人地址 :
山东省济南市高新区舜华路1500号
代理机构 :
济南圣达知识产权代理有限公司
代理人 :
李圣梅
优先权 :
CN202210308561.2
主分类号 :
G16B40/30
IPC分类号 :
G16B40/30  G16B30/10  G16B50/30  
IPC结构图谱
G
G部——物理
G16
特别适用于特定应用领域的信息通信技术
G16B
生物信息学,例如特别适用于计算分子生物学中的遗传或蛋白质相关数据处理的信息与通信技术
G16B40/00
特别适用于生物统计学的ICT;特别适用于与生物信息学相关的机器学习或数据挖掘,例如知识发现或模式发现的ICT
G16B40/30
无监督数据分析
法律状态
2022-05-20 :
实质审查的生效
IPC(主分类) : G16B 40/30
申请日 : 20220328
2022-04-29 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332