一种基于Spark计算框架的数据获取方法和装置
授权
摘要

本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括:在接收到表对象访问请求之后,获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息;根据计算资源信息和数据分布信息,生成多个Partition;其中,每个Partition对应数据表中的部分数据;通过生成的多个Partition,从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性,通过多个Partition,直接从MPP的存储节点快速获取数据集。进一步地,在计算资源充足的情况下,可以对存储节点的数据表进行进一步的拆分,以达到提高并行度,提升数据导入性能的目的。可以根据MPP集群的数据分布情况,优先从本地存储中获取数据,减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。

基本信息
专利标题 :
一种基于Spark计算框架的数据获取方法和装置
专利标题(英):
暂无
公开(公告)号 :
CN108536808A
申请号 :
CN201810296682.3
公开(公告)日 :
2018-09-14
申请日 :
2018-04-04
授权号 :
CN108536808B
授权日 :
2022-04-29
发明人 :
吕雁飞刘欣然张鸿蒋旭马秉楠惠榛朱亚南
申请人 :
国家计算机网络与信息安全管理中心;天津神舟通用数据技术有限公司
申请人地址 :
北京市朝阳区裕民路甲3号
代理机构 :
工业和信息化部电子专利中心
代理人 :
李勤媛
优先权 :
CN201810296682.3
主分类号 :
G06F17/30
IPC分类号 :
G06F17/30  
法律状态
2022-04-29 :
授权
2018-10-16 :
实质审查的生效
IPC(主分类) : G06F 17/30
申请日 : 20180404
2018-09-14 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载
  • 联系电话
    电话:023-6033-8768
    QQ:1493236332
  • 联系 Q Q
    电话:023-6033-8768
    QQ:1493236332
  • 关注微信
    电话:023-6033-8768
    QQ:1493236332
  • 收藏
    电话:023-6033-8768
    QQ:1493236332