Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.
En esta página se incluyen ejemplos de notebooks para el entrenamiento distribuido en varios nodos y múltiples GPU mediante el uso de computación sin servidor con GPU. En estos ejemplos se muestra cómo escalar el entrenamiento entre varias GPU y nodos para mejorar el rendimiento.
Elección de la técnica de paralelismo
Al escalar el entrenamiento del modelo en varias GPU, elegir la técnica de paralelismo adecuada depende del tamaño del modelo, la memoria de GPU disponible y los requisitos de rendimiento.
| Técnica | Cuándo se deben usar |
|---|---|
| DDP (datos distribuidos paralelos) | El modelo completo se ajusta a una sola memoria de GPU; necesidad de escalar el rendimiento de los datos |
| FSDP (datos totalmente particionados paralelos) | Modelos muy grandes que no caben en una sola memoria de GPU |
| DeepSpeed ZeRO | Modelos grandes con necesidades avanzadas de optimización de memoria |
Para obtener información detallada sobre cada técnica, consulte DDP, FSDP y DeepSpeed.
Cuadernos de ejemplo según técnica y entorno de trabajo
En la tabla siguiente se organizan los notebooks de muestra según el marco o biblioteca que esté utilizando y la técnica de paralelismo aplicada. Varios cuadernos pueden aparecer en una sola celda.
| Marco de trabajo/Biblioteca | Ejemplos de DDP | Ejemplos de FSDP | Ejemplos de DeepSpeed |
|---|---|---|---|
| PyTorch (nativo) |
Red neuronal de MLP simple Detección de imágenes de RetinaNet |
Transformador de parámetros 10M | — |
| Huggingface TRL | Ajuste de gpt OSS 20B | Ajuste de gpt OSS 120B | Ajustar llama 3.2 1B |
| Deslotecer | Optimizar Llama 3.2 3B | — | — |
| Axolotl | Ajustar Olmo3 7B | — | — |
| Mosaico LLM Fundición | Ajustar fino Llama 3.2 8B | — | — |
| Tren de Ray | ResNet18 en FashionMNIST (computer vision) | — | — |
| Relámpago | Sistema de recomendación de dos torres | — | — |
Comienza
El cuaderno siguiente tiene un ejemplo básico de cómo usar la API de Python de GPU sin servidor para iniciar varias GPU A10 para el entrenamiento distribuido.