Previsión a gran escala: muchos modelos y entrenamiento distribuido

En este artículo se describen los modelos de previsión de entrenamiento en grandes cantidades de datos históricos. Para obtener instrucciones y ejemplos sobre el entrenamiento de modelos de previsión en AutoML, consulte Configuración de AutoML para la previsión de series temporales.

Los datos de series temporales pueden ser grandes debido al número de series de los datos, el número de observaciones históricas o ambos. Muchos modelos y series temporales jerárquicas, o HTS, son soluciones de escalado para el primer escenario, donde los datos constan de un gran número de series temporales. En estos casos, la creación de particiones de los datos en grupos y el entrenamiento de un gran número de modelos independientes en paralelo en los grupos pueden mejorar la precisión y la escalabilidad del modelo. Por el contrario, uno o algunos modelos de alta capacidad funcionan mejor para otros escenarios. El entrenamiento de DNN distribuido tiene como destino este caso. El resto de este artículo revisa los conceptos relacionados con estos escenarios.

Many Models

Los componentes de muchos modelos de AutoML permiten entrenar y administrar millones de modelos en paralelo. Por ejemplo, supongamos que tiene datos históricos de ventas para un gran número de tiendas. Puede usar muchos modelos para iniciar trabajos de entrenamiento de AutoML paralelos para cada almacén, como se muestra en el diagrama siguiente:

Diagrama que muestra el flujo de trabajo de muchos modelos en AutoML.

El componente de entrenamiento de muchos modelos aplica el barrido y la selección de modelos de AutoML de forma independiente a cada almacén de este ejemplo. Esta independencia del modelo ayuda a la escalabilidad y puede beneficiar la precisión del modelo, especialmente cuando las tiendas tienen dinámicas de ventas divergencias. Sin embargo, un enfoque de modelo único podría producir previsiones más precisas cuando hay dinámicas de ventas comunes. Para obtener más información, consulte la sección entrenamiento de DNN distribuido .

Puede configurar la creación de particiones de datos, la configuración de AutoML para los modelos y el grado de paralelismo para los trabajos de entrenamiento de muchos modelos. Para obtener ejemplos, consulte nuestra sección de guía sobre componentes de muchos modelos.

Previsión de series temporales jerárquicas

En las aplicaciones empresariales, los datos de serie temporal suelen incluir atributos anidados que forman una jerarquía. Por ejemplo, los atributos geográficos y los atributos del catálogo de productos suelen anidar entre sí. Considere un ejemplo en el que la jerarquía incluye dos atributos geográficos, el estado y el identificador de almacén, y dos atributos de producto, categoría y SKU:

Tabla de ejemplo de los datos de serie temporal jerárquica.

En el diagrama siguiente se muestra esta jerarquía:

Diagrama de la jerarquía de los datos para los datos de ejemplo.

Las cantidades de ventas en el nivel hoja (SKU) se suman a las cantidades de ventas agregadas a nivel estatal y al nivel total de ventas. Los métodos de previsión jerárquicos conservan estas propiedades de agregación al prever la cantidad vendida en cualquier nivel de la jerarquía. Las previsiones con esta propiedad son coherentes con respecto a la jerarquía.

AutoML admite las siguientes características para series temporales jerárquicas (HTS):

Entrenamiento en cualquier nivel de la jerarquía. En algunos casos, los datos de nivel hoja podrían ser ruidosos, pero los datos agregados podrían ser más fáciles de predecir.
Recuperación de las previsiones de punto en cualquier nivel de la jerarquía. Si el nivel de previsión es "inferior" al nivel de entrenamiento, el modelo desagrega las previsiones del nivel de entrenamiento mediante proporciones históricas medias o proporciones de promedios históricos. Si el nivel de previsión es "superior" al nivel de entrenamiento, el modelo suma las previsiones del nivel de entrenamiento según la estructura de agregación.
Obtención de pronósticos cuantiles y probabilísticos para niveles en o 'por debajo' del nivel de entrenamiento. Las funcionalidades actuales de modelado admiten la desagregación de las previsiones probabilísticas.

Los componentes HTS de AutoML se basan en muchos modelos, por lo que HTS comparte las propiedades escalables de muchos modelos. Para obtener ejemplos, consulte nuestra sección de guía sobre componentes de HTS.

Entrenamiento de DNN distribuido (versión preliminar)

Importante

Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin un Acuerdo de Nivel de Servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas.

Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Los escenarios de datos que incluyen grandes cantidades de observaciones históricas o un gran número de series temporales relacionadas pueden beneficiarse de un enfoque de modelo único escalable. En consecuencia, AutoML admite la búsqueda de modelos y el entrenamiento distribuido en modelos de red convolucional temporal (TCN), que son un tipo de red neuronal profunda (DNN) para los datos de serie temporal. Para obtener más información sobre la clase de modelo TCN de AutoML, consulte nuestro artículo sobre DNN.

El entrenamiento de DNN distribuido logra la escalabilidad mediante un algoritmo de creación de particiones de datos que respeta los límites de la serie temporal. En el diagrama siguiente se muestra un ejemplo sencillo con dos particiones:

Diagrama de ejemplo de una partición de datos de entrenamiento distribuido.

Durante el entrenamiento, los cargadores de datos DNN en cada nodo de proceso cargan solo lo que necesitan para completar una iteración de propagación inversa; el conjunto de datos completo nunca se lee en la memoria. Las particiones se distribuyen aún más entre varios núcleos de proceso (normalmente GPU) posiblemente en varios nodos para acelerar el entrenamiento. El marco Horovod proporciona coordinación entre nodos de proceso.

Pasos siguientes

Más información sobre cómo configurar AutoML para entrenar un modelo de previsión de series temporales.
Obtenga información sobre cómo AutoML usa el aprendizaje automático para crear modelos de previsión.
Más información sobre los modelos de aprendizaje profundo para la previsión en AutoML

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-11-14