Compartir a través de


Entrenamiento distribuido mediante DeepSpeed

Importante

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.

En esta página se incluyen ejemplos de notebooks para el entrenamiento distribuido utilizando DeepSpeed en computación de GPU sin servidor. DeepSpeed proporciona técnicas avanzadas de optimización de memoria a través de sus fases zeRO (optimizador de redundancia cero), lo que permite un entrenamiento eficaz de modelos grandes.

Cuándo usar DeepSpeed

Use DeepSpeed cuando:

  • Necesita optimización avanzada de memoria más allá del FSDP estándar.
  • Desea un control específico sobre el particionamiento de estado del optimizador (ZeRO Stage 1, 2 o 3)
  • Necesita funciones adicionales, como la fusión de acumulación de gradiente o la delegación de CPU.
  • Estás trabajando con modelos de lenguaje grandes (1B a 100B+ parámetros)

Para casos de uso más sencillos, considere DDP. Para el entrenamiento nativo de PyTorch de modelos grandes, consulte FSDP.

Ajuste fino supervisado mediante TRL y DeepSpeed ZeRO Stage 3

En este cuaderno se muestra cómo usar la API de Python de GPU sin servidor para ejecutar el ajuste fino supervisado (SFT) mediante la biblioteca Transformer para el Aprendizaje por Refuerzo (TRL) con optimización DeepSpeed ZeRO Stage 3 en una GPU A10 de nodo único. Este enfoque se puede extender a las configuraciones de varios nodos.

TRL DeepSpeed

Obtener el cuaderno