多 GPU 和多节点分布式训练

重要

此功能在 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 管理 Azure Databricks 预览版

本页包含使用无服务器 GPU 计算的多节点和多 GPU 分布式训练的笔记本示例。 这些示例演示如何跨多个 GPU 和节点缩放训练以提高性能。

选择并行技术

跨多个 GPU 缩放模型训练时,选择正确的并行度技术取决于模型大小、可用的 GPU 内存和性能要求。

技术 何时使用
DDP (分布式数据并行) 完整模型可以适配单个 GPU 内存;需要提高数据吞吐量
FSDP (完全分片数据并行) 非常大的模型不适合单个 GPU 的内存
DeepSpeed ZeRO 具有高级内存优化需求的大型模型

有关每种技术的详细信息,请参阅 DDPFSDPDeepSpeed

按技术和框架的示例笔记本

下表按所使用的框架/库和应用的并行度技术来组织示例笔记本。 多个笔记本可能出现在单个单元格中。

框架/库 DDP 示例 FSDP 示例 DeepSpeed 示例
PyTorch (原生) 简单的 MLP 神经网络
RetinaNet 图像检测
10M 参数转换器
拥抱脸 TRL 微调 Gpt OSS 20B 微调GPT OSS 120B 微调 Llama 3.2 1B
Unsloth 对 Llama 3.2 3B 进行微调
Axolotl 微调 Olmo3 7B
马赛克 LLM 铸造厂 微调 Llama 3.2 8B
光线训练 FashionMNIST 上的 ResNet18 (计算机视觉)
闪电 双塔推荐系统

开始

以下笔记本提供了有关如何使用 无服务器 GPU Python API 启动多个 A10 GPU 进行分布式训练的基本示例。

无服务器 GPU API:A10 入门版

获取笔记本