Tipos de implementación de Azure OpenAI

Artículo
01/16/2025

Azure OpenAI proporciona a los clientes opciones en la estructura de hospedaje que se ajustan a sus patrones de uso y negocio. El servicio ofrece dos tipos principales de implementaciones: estándar y aprovisionada. Para un tipo de implementación determinado, los clientes pueden alinear sus cargas de trabajo con sus requisitos de procesamiento de datos eligiendo una zona de datos especificada por Azure (Standard o Provisioned-Managed), opciones de procesamiento de zona de datos especificadas por Microsoft (DataZone-Standard o DataZone Provisioned-Managed) o Global (Global-Standard o Global Provisioned-Managed).

Todas las implementaciones pueden realizar exactamente las mismas operaciones de inferencia, pero la facturación, la escala y el rendimiento son considerablemente diferentes. Como parte del diseño de la solución, deberá tomar dos decisiones clave:

Ubicación de procesamiento de datos
Volumen de llamadas

Ubicaciones de procesamiento de datos de implementación de Azure OpenAI

En el caso de las implementaciones estándar, hay tres opciones de tipo de implementación entre las que elegir: global, zona de datos y geografía de Azure. En el caso de las implementaciones aprovisionadas, hay dos opciones de tipo de implementación entre las que elegir: global y geografía de Azure. La norma mundial es el punto de partida recomendado.

Las implementaciones globales aprovechan la infraestructura global de Azure para enrutar dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente’. Esto significa que obtendrá los límites de rendimiento iniciales más altos y la mejor disponibilidad del modelo con global, sin dejar de proporcionar nuestro Acuerdo de Nivel de Servicio de tiempo de actividad y baja latencia. Para cargas de trabajo de gran volumen por encima de los niveles de uso especificados en estándar y estándar global, puede experimentar una mayor variación de latencia. En el caso de los clientes que requieren la varianza de latencia menor en el uso de cargas de trabajo de gran tamaño, se recomienda aprovechar los tipos de implementación aprovisionados.

Nuestras implementaciones globales serán la primera ubicación para todos los nuevos modelos y características. En función del volumen de llamadas, los clientes con requisitos de varianza de gran volumen y baja latencia deben tener en cuenta nuestros tipos de implementación aprovisionados.

Las implementaciones de zona de datos aprovechan la infraestructura global de Azure para enrutar dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente dentro de la zona de datos definida por Microsoft. Colocado entre nuestras ofertas de implementación global y geografía de Azure, las implementaciones de zona de datos proporcionan límites de cuota elevados al tiempo que mantienen el procesamiento de datos dentro de la zona de datos especificada por Microsoft. Los datos almacenados en reposo seguirán estando en la geografía del recurso de Azure OpenAI (por ejemplo, para un recurso de Azure OpenAI creado en la región de Azure central de Suecia, la geografía de Azure es Suecia).

Si el recurso de Azure OpenAI usado en la implementación de la zona de datos se encuentra en Estados Unidos, los datos se procesarán en Estados Unidos. Si el recurso de Azure OpenAI usado en la implementación de la zona de datos se encuentra en una nación miembro de la Unión Europea, los datos se procesarán en las zonas geográficas de la Nación miembro de la Unión Europea. Para todos los tipos de implementación del servicio Azure OpenAI, los datos almacenados en reposo seguirán estando en la geografía del recurso de Azure OpenAI. Los compromisos de cumplimiento y procesamiento de datos de Azure siguen siendo aplicables.

Para cualquier tipo de implementación etiquetada como "Global", las solicitudes y respuestas se pueden procesar en cualquier zona geográfica en la que se implemente el modelo de Azure OpenAI pertinente (obtenga más información sobre la disponibilidad de región de los modelos). Para cualquier tipo de implementación etiquetado como "DataZone", las solicitudes y respuestas se pueden procesar en cualquier geografía dentro de la zona de datos especificada, tal como se define en Microsoft. Si crea una implementación de DataZone en un recurso de Azure OpenAI ubicado en Estados Unidos, las solicitudes y respuestas se pueden procesar en cualquier parte de Estados Unidos. Si crea una implementación de DataZone en un recurso de Azure OpenAI ubicado en una nación miembro de la Unión Europea, las solicitudes y respuestas se pueden procesar en esa o en cualquier otra nación miembro de la Unión Europea. Para los tipos de implementación Global y DataZone, los datos almacenados en reposo, como los datos cargados, se almacenan en la geografía designada por el cliente. Solo la ubicación del procesamiento se ve afectada cuando un cliente usa un tipo de implementación global o un tipo de implementación DataZone en Azure OpenAI Service; los compromisos de cumplimiento y procesamiento de datos de Azure siguen siendo aplicables.

Estándar global

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI. Obtenga más información sobre la retención de datos.

Las implementaciones globales están disponibles en los mismos recursos de Azure OpenAI que los tipos de implementación no globales, pero permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. El estándar global proporciona la cuota predeterminada más alta y elimina la necesidad de equilibrar la carga entre varios recursos.

Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Más información en la página de cuotas. En el caso de las aplicaciones que requieren la varianza de latencia más baja en el uso de cargas de trabajo grandes, se recomienda comprar el rendimiento aprovisionado.

Aprovisionado global

Importante

Las implementaciones globales están disponibles en los mismos recursos de Azure OpenAI que los tipos de implementación no globales, pero permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. Las implementaciones aprovisionadas globales proporcionan una capacidad de procesamiento de modelos reservada para un rendimiento alto y predecible mediante la infraestructura global de Azure.

Lote global

Importante

Lote global se ha diseñado para controlar las tareas de procesamiento a gran escala y de alto volumen de forma eficaz. Procese grupos asincrónicos de solicitudes con cuota independiente, con una solución alternativa de destino de 24 horas y un costo del 50 % menos que el estándar global. Con el procesamiento por lotes, en lugar de enviar una solicitud cada vez, se envía un gran número de solicitudes en un único archivo. Las solicitudes por lotes globales tienen una cuota de tokens en cola independiente, lo que evita cualquier interrupción de las cargas de trabajo en línea.

Los siguientes son algunos de los principales casos de uso:

Procesamiento de datos a gran escala: analice rápidamente conjuntos de datos extensos en paralelo.
Generación de contenido: cree grandes volúmenes de texto, como descripciones de productos o artículos.
Revisión y resumen de documentos: automatice la revisión y el resumen de documentos largos.
Automatización del soporte al cliente: controle numerosas consultas simultáneamente para respuestas más rápidas.
Extracción y análisis de datos: extraiga y analice información de grandes cantidades de datos no estructurados.
Tareas de procesamiento de lenguaje natural (NLP): realice tareas como análisis de sentimiento o traducción en grandes conjuntos de datos.
Marketing y personalización: genere contenido personalizado y recomendaciones a escala.

Estándar de zona de datos

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI dentro de la zona de datos especificada por Microsoft. Obtenga más información sobre la retención de datos.

Las implementaciones estándar de zona de datos están disponibles en el mismo recurso de Azure OpenAI que todos los demás tipos de implementación de Azure OpenAI, pero permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. El estándar de zona de datos proporciona cuotas predeterminadas más altas que los tipos de implementación basados en geografía de Azure.

Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Consulte la página Cuotas y límites para obtener más información. En el caso de las cargas de trabajo que requieren una varianza de baja latencia en un gran volumen, se recomienda aprovechar las ofertas de implementación aprovisionadas.

Zona de datos aprovisionada

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI dentro de la zona de datos especificada por Microsoft. Más información sobre la residencia de datos.

Las implementaciones aprovisionadas de zona de datos están disponibles en el mismo recurso de Azure OpenAI que todos los demás tipos de implementación de Azure OpenAI, pero permiten aprovechar la infraestructura global de Azure para dirigir dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Las implementaciones aprovisionadas de zona de datos proporcionan capacidad reservada de procesamiento de modelos para un rendimiento alto y predecible mediante la infraestructura de Azure dentro de las zonas de datos especificadas por Microsoft.

Lote de zona de datos

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI dentro de la zona de datos especificada por Microsoft. Obtenga más información sobre la retención de datos.

Las implementaciones por lotes de zona de datos proporcionan la misma funcionalidad que las implementaciones de lotes globales, al tiempo que permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico solo a centros de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud.

Estándar

Las implementaciones estándar proporcionan un modelo de facturación de pago por llamada en el modelo elegido. Proporciona la manera más rápida de empezar a trabajar, ya que solo paga por lo que consume. Los modelos disponibles en cada región, así como el rendimiento pueden ser limitados.

Las implementaciones estándar están optimizadas para cargas de trabajo de bajo a medio volumen con alta expansión. Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia.

aprovisionado

Las implementaciones aprovisionadas permiten especificar la cantidad de rendimiento que necesita en una implementación. A continuación, el servicio asigna la capacidad de procesamiento del modelo necesaria y garantiza que está listo para el usuario. El rendimiento se define en términos de unidades de procesamiento aprovisionadas (PTU), que es una forma normalizada de representar una cantidad de rendimiento para una implementación. Cada par de modelo y versión requiere diferentes cantidades de PTU para su implementación y aporta diferentes cantidades de rendimiento por PTU. Obtenga más información en el artículo Conceptos de rendimiento aprovisionado.

Cómo deshabilitar el acceso a implementaciones globales en su suscripción

Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a escala. Mediante su panel de cumplimiento, proporciona una vista agregada para evaluar el estado general del entorno, con la posibilidad de explorar en profundidad hasta el nivel de recurso y directiva. También ayuda al cumplimiento de los recursos gracias a la corrección masiva de los recursos existentes y la corrección automática de nuevos recursos. Obtenga más información sobre Azure Policy y controles integrados específicos para los servicios de inteligencia artificial.

Puede usar la siguiente directiva para deshabilitar el acceso a las implementaciones estándar globales de Azure OpenAI. Para deshabilitar el acceso a un tipo de implementación específico, reemplace GlobalStandard por el nombre de SKU del tipo de implementación al que desea deshabilitar el acceso.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Implementación de modelos

Para obtener información sobre cómo crear recursos e implementar modelos, consulte la guía de creación de recursos.

Compartir a través de

Tipos de implementación de Azure OpenAI

Ubicaciones de procesamiento de datos de implementación de Azure OpenAI

Estándar global

Aprovisionado global

Lote global

Estándar de zona de datos

Zona de datos aprovisionada

Lote de zona de datos

Estándar

aprovisionado

Cómo deshabilitar el acceso a implementaciones globales en su suscripción

Implementación de modelos

Consulte también

Comentarios

Recursos adicionales