深度学习模型分布式训练方法及其训练执行计划构建方法

公开

摘要

本公开涉及一种深度学习模型分布式训练方法及其训练执行计划构建方法，可以构建适合深度学习模型和用于训练该深度学习模型的模型训练系统的硬件拓扑架构的分布式训练执行计划。将深度学习模型的HLO或MLIR计算图拆分为对于不同样本能够独立进行计算的第一模块和剩余的第二模块；添加第三模块，用于通过本地累加来衔接第一模块和第二模块；将第一模块拆分为多个第一子级；基于模型训练系统的硬件拓扑架构，对所述多个第一子级以及所述多个第一子级上进行计算的多个批次的样本构建分布式训练执行计划，以降低总的训练时间及资源消耗。由此，提供了一种改进的深度学习模型训练方法及其执行计划构建方法，能够方便地构建分布式训练执行计划。

基本信息

专利标题：

深度学习模型分布式训练方法及其训练执行计划构建方法

专利标题（英）：

暂无

公开（公告）号：

CN114611688A

申请号：

CN202210062832.0

公开（公告）日：

2022-06-10

申请日：

2022-01-19

授权号：

暂无

授权日：

暂无

发明人：

王思宇樊士庆刁岚松龙国平刘小勇林伟

申请人：

阿里云计算有限公司

申请人地址：

浙江省杭州市西湖区转塘科技经济区块12号

代理机构：

北京展翼知识产权代理事务所(特殊普通合伙)

代理人：

屠长存

优先权：

CN202210062832.0

主分类号：

G06N3/08

IPC分类号：

G06N3/08 G06F9/54 G06F9/48

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06N

基于特定计算模型的计算机系统

G06N3/00

基于生物学模型的计算机系统

G06N3/02

采用神经网络模型

G06N3/08

学习方法

法律状态

2022-06-10 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载