Compartir a través de


Entrenamiento distribuido con varias GPU y varios nodos

Importante

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.

En esta página se incluyen ejemplos de notebooks para el entrenamiento distribuido en varios nodos y múltiples GPU mediante el uso de computación sin servidor con GPU. En estos ejemplos se muestra cómo escalar el entrenamiento entre varias GPU y nodos para mejorar el rendimiento.

Elección de la técnica de paralelismo

Al escalar el entrenamiento del modelo en varias GPU, elegir la técnica de paralelismo adecuada depende del tamaño del modelo, la memoria de GPU disponible y los requisitos de rendimiento.

Técnica Cuándo se deben usar
DDP (datos distribuidos paralelos) El modelo completo se ajusta a una sola memoria de GPU; necesidad de escalar el rendimiento de los datos
FSDP (datos totalmente particionados paralelos) Modelos muy grandes que no caben en una sola memoria de GPU
DeepSpeed ZeRO Modelos grandes con necesidades avanzadas de optimización de memoria

Para obtener información detallada sobre cada técnica, consulte DDP, FSDP y DeepSpeed.

Cuadernos de ejemplo según técnica y entorno de trabajo

En la tabla siguiente se organizan los notebooks de muestra según el marco o biblioteca que esté utilizando y la técnica de paralelismo aplicada. Varios cuadernos pueden aparecer en una sola celda.

Marco de trabajo/Biblioteca Ejemplos de DDP Ejemplos de FSDP Ejemplos de DeepSpeed
PyTorch (nativo) Red neuronal de MLP simple
Detección de imágenes de RetinaNet
Transformador de parámetros 10M
Huggingface TRL Ajuste de gpt OSS 20B Ajuste de gpt OSS 120B Ajustar llama 3.2 1B
Deslotecer Optimizar Llama 3.2 3B
Axolotl Ajustar Olmo3 7B
Mosaico LLM Fundición Ajustar fino Llama 3.2 8B
Tren de Ray ResNet18 en FashionMNIST (computer vision)
Relámpago Sistema de recomendación de dos torres

Comienza

El cuaderno siguiente tiene un ejemplo básico de cómo usar la API de Python de GPU sin servidor para iniciar varias GPU A10 para el entrenamiento distribuido.

API de GPU sin servidor: A10 starter

Obtener el cuaderno