Compartir a través de


Tipos de implementación en la inferencia de modelos de Azure AI

La inferencia de modelos de Azure AI en los servicios de Azure AI proporciona a los clientes opciones en la estructura de hospedaje que se ajusta a sus patrones de uso y negocio. El servicio ofrece dos tipos principales de implementación: estándar y aprovisionada. Estándar se ofrece con una opción de implementación global, enrutando el tráfico globalmente para proporcionar un mayor rendimiento. Aprovisionado también se ofrece con una opción de implementación global, lo que permite a los clientes comprar e implementar unidades de rendimiento aprovisionadas en toda la infraestructura global de Azure.

Todas las implementaciones pueden realizar exactamente las mismas operaciones de inferencia, pero la facturación, la escala y el rendimiento son considerablemente diferentes. Como parte del diseño de la solución, deberá tomar dos decisiones clave:

  • Las necesidades de residencia de datos: recursos globales frente a regionales
  • El volumen de llamadas: estándar frente a aprovisionado

La compatibilidad con tipos de implementación varía según el modelo y el proveedor de modelos.

Tipos de implementación globales frente a regionales

En el caso de las implementaciones estándar y aprovisionadas, puede elegir entre dos tipos de configuraciones dentro del recurso: global o regional. La norma mundial es el punto de partida recomendado.

Las implementaciones globales usen la infraestructura global de Azure, enrutando dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. Esto significa que obtendrá los límites de rendimiento iniciales más altos y la mejor disponibilidad del modelo con global, sin dejar de proporcionar nuestro Acuerdo de Nivel de Servicio de tiempo de actividad y baja latencia. Para cargas de trabajo de gran volumen por encima de los niveles de uso especificados en estándar y estándar global, puede experimentar una mayor variación de latencia. En el caso de los clientes que requieren la varianza de latencia más baja en el uso de cargas de trabajo grandes, se recomienda comprar el rendimiento aprovisionado.

Nuestras implementaciones globales serán la primera ubicación para todos los nuevos modelos y características. Los clientes con requisitos de rendimiento muy grandes deben tener en cuenta nuestra oferta de implementación aprovisionada.

Estándar

Las implementaciones estándar proporcionan un modelo de facturación de pago por llamada en el modelo elegido. Proporciona la manera más rápida de empezar a trabajar, ya que solo paga por lo que consume. Los modelos disponibles en cada región, así como el rendimiento pueden ser limitados.

Las implementaciones estándar están optimizadas para cargas de trabajo de bajo a medio volumen con alta expansión. Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia.

Solo los modelos de Azure OpenAI admiten este tipo de implementación.

Estándar global

Las implementaciones globales están disponibles en los mismos recursos de Servicios de Azure AI que los tipos de implementación no globales, pero permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. El estándar global proporciona la cuota predeterminada más alta y elimina la necesidad de equilibrar la carga entre varios recursos.

Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. En el caso de las aplicaciones que requieren la varianza de latencia más baja en el uso de cargas de trabajo grandes, se recomienda comprar el rendimiento aprovisionado si está disponible.

Aprovisionado global

Las implementaciones globales están disponibles en los mismos recursos de Servicios de Azure AI que los tipos de implementación no globales, pero permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. Las implementaciones aprovisionadas globales proporcionan una capacidad de procesamiento de modelos reservada para un rendimiento alto y predecible mediante la infraestructura global de Azure.

Solo los modelos de Azure OpenAI admiten este tipo de implementación.