Compartir a través de


Entrenamiento de datos distribuidos paralelos (DDP)

Importante

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.

En esta página se incluyen ejemplos de notebooks para usar el entrenamiento de Distributed Data Parallel (DDP) en la computación GPU sin servidor. DDP es la técnica de paralelismo más común para el entrenamiento distribuido, donde el modelo completo se replica en cada GPU y los lotes de datos se dividen entre GPU.

Cuándo usar DDP

Utilice DDP cuando:

  • El modelo encaja completamente en la memoria de una sola GPU.
  • Quiere aumentar la capacidad de procesamiento de datos para escalar el entrenamiento.
  • Necesita el enfoque de entrenamiento distribuido más sencillo con compatibilidad automática en la mayoría de los marcos.

En el caso de modelos más grandes que no caben en una sola memoria gpu, considere FSDP o DeepSpeed en su lugar.

Entrenamiento de una red neuronal MLP (multilayer perceptron) simple usando PyTorch DDP

En el cuaderno siguiente se muestra el entrenamiento distribuido de una red neuronal multicapa simple (MLP) mediante el módulo DDP de PyTorch en Azure Databricks con recursos de GPU sin servidor.

PyTorch DDP

Obtener el cuaderno

Entrenamiento del modelo openAI GPT-OSS 20B en 8xH100 mediante TRL y DDP

En este cuaderno se muestra cómo usar la API de Python de GPU sin servidor para ejecutar el ajuste fino supervisado (SFT) en el modelo de GPT-OSS 20B desde Hugging Face mediante la biblioteca de Aprendizaje de refuerzo de transformadores (TRL). En este ejemplo, se utiliza DDP en las 8 GPU H100 del nodo para incrementar el tamaño global del lote.

TRL DDP

Obtener el cuaderno

Ajuste fino distribuido de Llama 3.2 3B utilizando Unsloth

En este cuaderno se muestra cómo usar la API de Python de GPU sin servidor para ajustar un modelo Llama 3.2 3B con la biblioteca Unsloth en 8 GPU A10. Unsloth proporciona optimizaciones eficientes en el uso de memoria para el entrenamiento y utiliza DDP en segundo plano a través de Hugging Face Accelerate.

DDP desmotivar

Obtener el cuaderno

Ajuste fino distribuido de Olmo3 7B mediante Axolotl

En este cuaderno se muestra cómo usar la API de Python de GPU sin servidor para ajustar un modelo Olmo3 7B con biblioteca Axolotl en 16 GPU H100. Axolotl está diseñado para simplificar el entrenamiento posterior y el ajuste preciso para las máquinas virtuales más recientes.

Axolotl DDP

Obtener el cuaderno

Ajuste fino distribuido Llama 3.2 8B utilizando Mosaic LLM Foundry

En este cuaderno se demuestra cómo utilizar la API de Python de GPU sin servidor para afinar un modelo Llama 3.2 8B con la biblioteca Mosaic LLM Foundry en 16 GPUs A10. Mosaic LLM Foundry proporciona API fáciles de usar, eficientes y flexibles para entrenar modelos de lenguaje grandes.

Notebook

Obtener el cuaderno

Entrenamiento distribuido mediante Ray Train (Computer Vision)

En este cuaderno se muestra el entrenamiento distribuido de un modelo de PyTorch ResNet en el conjunto de datos FashionMNIST mediante Ray Train y Ray Data en clústeres de GPU sin servidor de Databricks. Ray Train proporciona orquestación de entrenamiento distribuido de alto nivel y usa DDP como estrategia de paralelismo subyacente. En este ejemplo se describe la configuración del almacenamiento del catálogo de Unity, la configuración de Ray para el entrenamiento de GPU de varios nodos, el registro y el registro de modelos con MLflow y la evaluación del rendimiento del modelo.

Ray DDP

Obtener el cuaderno

Entrenamiento de un sistema de recomendación de dos torres mediante PyTorch Lightning

En este cuaderno se muestra cómo entrenar un modelo de recomendación de dos torres mediante PyTorch Lightning en un proceso de GPU sin servidor. PyTorch Lightning proporciona una interfaz de alto nivel que controla automáticamente la configuración de DDP para el entrenamiento con varias GPU. En el ejemplo se incluye la preparación de datos mediante el formato Mosaic Streaming (MDS) y el entrenamiento distribuido en GPUs A10 o H100.

Consulte la página ejemplos de recomendaciones de aprendizaje profundo para ver los cuadernos completos, entre los que se incluyen:

  • Preparación de datos y conversión de formato MDS
  • Entrenamiento del recomendador de dos torres con PyTorch Lightning