Entrenamiento distribuido con varias GPU y varios nodos

Importante

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.

En esta página se incluyen ejemplos de notebooks para el entrenamiento distribuido en varios nodos y múltiples GPU mediante el uso de computación sin servidor con GPU. En estos ejemplos se muestra cómo escalar el entrenamiento entre varias GPU y nodos para mejorar el rendimiento.

Elección de la técnica de paralelismo

Al escalar el entrenamiento del modelo en varias GPU, elegir la técnica de paralelismo adecuada depende del tamaño del modelo, la memoria de GPU disponible y los requisitos de rendimiento.

Técnica	Cuándo se deben usar
DDP (datos distribuidos paralelos)	El modelo completo se ajusta a una sola memoria de GPU; necesidad de escalar el rendimiento de los datos
FSDP (datos totalmente particionados paralelos)	Modelos muy grandes que no caben en una sola memoria de GPU
DeepSpeed ZeRO	Modelos grandes con necesidades avanzadas de optimización de memoria

Para obtener información detallada sobre cada técnica, consulte DDP, FSDP y DeepSpeed.

Cuadernos de ejemplo según técnica y entorno de trabajo

En la tabla siguiente se organizan los notebooks de muestra según el marco o biblioteca que esté utilizando y la técnica de paralelismo aplicada. Varios cuadernos pueden aparecer en una sola celda.

Marco de trabajo/Biblioteca	Ejemplos de DDP	Ejemplos de FSDP	Ejemplos de DeepSpeed
PyTorch (nativo)	Red neuronal de MLP simple Detección de imágenes de RetinaNet	Transformador de parámetros 10M	—
Huggingface TRL	Ajuste de gpt OSS 20B	Ajuste de gpt OSS 120B	Ajustar llama 3.2 1B
Deslotecer	Optimizar Llama 3.2 3B	—	—
Axolotl	Ajustar Olmo3 7B	—	—
Mosaico LLM Fundición	Ajustar fino Llama 3.2 8B	—	—
Tren de Ray	ResNet18 en FashionMNIST (computer vision)	—	—
Relámpago	Sistema de recomendación de dos torres	—	—

Comienza

El cuaderno siguiente tiene un ejemplo básico de cómo usar la API de Python de GPU sin servidor para iniciar varias GPU A10 para el entrenamiento distribuido.

API de GPU sin servidor: A10 starter

Obtener el cuaderno

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-12-19