Compartir a través de


Implementación de un modelo optimizado para la inferencia

Una vez ajustado el modelo, puede implementar el modelo y usarlo en su propia aplicación.

Al implementar el modelo, se hace que el modelo esté disponible para la inferencia y que incurra en un cargo por hospedaje por hora. Sin embargo, los modelos optimizados se pueden almacenar en Microsoft Foundry sin costo alguno hasta que esté listo para usarlos.

Azure OpenAI proporciona opciones de tipos de implementación para modelos afinados en la estructura de hospedaje que se adapta a diferentes patrones empresariales y de uso: Estándar, Global Estándar (versión preliminar) y Rendimiento Aprovisionado (versión preliminar). Obtenga más información sobre los tipos de implementación para modelos optimizados y los conceptos de todos los tipos de implementación.

Implementación del modelo optimizado

Para implementar el modelo personalizado, seleccione el modelo personalizado que se va a implementar y, a continuación, seleccione Implementar.

Se abre el cuadro de diálogo Implementar modelo. En el cuadro de diálogo, escriba el Nombre de la implementación y seleccione Crear para iniciar la implementación del modelo personalizado.

Captura de pantalla que muestra cómo implementar un modelo personalizado en el portal de Foundry.

Puede supervisar el progreso de la implementación en el panel Implementaciones del portal de Foundry.

La interfaz de usuario no admite la implementación entre regiones, mientras que el SDK de Python o REST admite.

Important

Después de implementar un modelo personalizado, si en cualquier momento la implementación permanece inactiva durante más de quince (15) días, la implementación se eliminará automáticamente. La implementación de un modelo personalizado es inactivasi el modelo se ha implementado hace más de quince (15) días y no se han realizado finalizaciones ni llamadas de finalización de chat durante un período continuo de 15 días.

La eliminación de una implementación inactiva no elimina ni afecta al modelo personalizado subyacente, y el modelo personalizado se puede volver a implementar en cualquier momento. Como se describe en Precios de Azure OpenAI en Microsoft Foundry Models, cada modelo personalizado (ajustado) que se implementa incurre en un coste de hospedaje por hora, independientemente de si se realizan solicitudes de finalización o de finalización de chat al modelo. Para más información sobre el planeamiento y la administración de costos con Azure OpenAI, consulte las instrucciones de Planeamiento para administrar los costos de Azure OpenAI.

Uso del modelo optimizado implementado

Cuando su modelo personalizado se implemente, puede usarlo como cualquier otro modelo implementado. Puede usar el área de juegos en el portal de Foundry para experimentar con la nueva implementación. Puede seguir usando los mismos parámetros con el modelo personalizado, como temperature y max_tokens, como puede hacer con otros modelos implementados.

Captura de pantalla del panel Parque infantil en el portal de Foundry, con secciones resaltadas.

Almacenamiento en caché de avisos

El ajuste preciso de Azure OpenAI admite el almacenamiento en caché de indicaciones con modelos seleccionados. El almacenamiento en caché de mensajes permite reducir la latencia general de las solicitudes y el costo de los mensajes más largos que tienen contenido idéntico al principio del mensaje. Para más información sobre el almacenamiento en caché de indicaciones, consulte introducción al almacenamiento en caché de indicaciones.

Tipos de implementación

El ajuste preciso de Azure OpenAI admite los siguientes tipos de implementación.

Standard

Las implementaciones estándar proporcionan un modelo de facturación de pago por token con residencia de datos limitada a la región implementada.

Models Región Este de EE.UU. 2 Centro-norte de EE. UU. Centro de Suecia
o4-mini
GPT-4.1
GPT-4.1 mini
GPT-4.1-nano
GPT-4o
GPT-4o-mini

Estándar global

Las implementaciones estándar globales optimizadas ofrecen ahorros de costos, pero los pesos de modelo personalizados pueden almacenarse temporalmente fuera de la geografía del recurso de Azure OpenAI.

Las implementaciones estándar globales están disponibles en todas las regiones de Azure OpenAI para los siguientes modelos:

  • o4-mini
  • GPT-4.1
  • GPT-4.1 mini
  • GPT-4.1-nano
  • GPT-4o
  • GPT-4o-mini

Recorte de pantalla de la experiencia de usuario de implementación estándar global con un modelo con ajuste preciso.

Nivel de Desarrollador

Las implementaciones optimizadas por los desarrolladores ofrecen una experiencia similar a la del Estándar Global sin un precio de hospedaje por hora, pero no ofrecen un contrato de nivel de servicio de disponibilidad. Las implementaciones de desarrollador están diseñadas para la evaluación de candidatos modelo y no para su uso en producción.

Las implementaciones para desarrolladores están disponibles en todas las regiones de Azure OpenAI para los siguientes modelos:

  • GPT-4.1
  • GPT-4.1 mini
  • GPT-4.1-nano
  • o4-mini

Rendimiento aprovisionado

Models Centro-norte de EE. UU. Centro de Suecia
GPT-4.1
GPT-4o
GPT-4o-mini

Las implementaciones de rendimiento aprovisionadas ofrecen un rendimiento predecible para las aplicaciones y agentes sensibles a la latencia. Usan la misma capacidad de rendimiento aprovisionado regional (PTU) que los modelos base, por lo que si ya tiene cuota de PTU regional, puede implementar el modelo optimizado en regiones de soporte técnico.

Limpieza de la implementación

Para eliminar una implementación, use la API REST Deployments - Delete y envíe una ELIMINACIÓN HTTP al recurso de implementación. Al igual que con la creación de implementaciones, debe incluir los parámetros siguientes:

  • Identificador de suscripción de Azure
  • Nombre del grupo de recursos de Azure
  • El nombre del recurso de Azure OpenAI
  • Nombre de la implementación que se va a eliminar

A continuación se muestra el ejemplo de la API REST para eliminar una implementación:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

También puede eliminar una implementación en el portal de Foundry o usar la CLI de Azure.

Pasos siguientes