Incorporación de unidades de procesamiento aprovisionado

Artículo
11/25/2024

Este artículo le guía a través del proceso de incorporación a Unidades de procesamiento aprovisionado (PTU). Una vez que haya completado la incorporación inicial, le recomendamos que consulte la guía de introducción de PTU.

Unidades de procesamiento aprovisionadas (PTU)

Debe considerar la posibilidad de cambiar de implementaciones estándar a implementaciones aprovisionadas cuando tenga requisitos de rendimiento y latencia bien definidos y predecibles. Normalmente, esto ocurre cuando la aplicación está lista para producción o ya se ha implementado en producción y existe una comprensión del tráfico esperado. Esto permite a los usuarios predecir con precisión la capacidad necesaria y evitar una facturación inesperada.

Escenarios típicos de PTU

Una aplicación que está lista para producción o en producción.
Una aplicación que tiene expectativas de uso y capacidad predecibles.
Una aplicación tiene requisitos confidenciales en tiempo real o de latencia.

Nota:

En los casos de uso de llamadas a funciones y agentes, el uso de tokens puede ser variable. Debe comprender el uso esperado de tokens por minuto (TPM) en detalle antes de migrar cargas de trabajo a PTU.

Dimensionamiento y estimación: implementaciones aprovisionadas

Determinar la cantidad adecuada de procesamiento aprovisionado, o PTU, es un paso esencial para optimizar el procesamiento y el costo. Si no está familiarizado con los distintos enfoques disponibles para calcular el rendimiento del nivel del sistema, revise las recomendaciones de estimación de rendimiento de nivel del sistema en nuestra documentación de rendimiento y latencia. En esta sección se describe cómo usar calculadoras de capacidad de Azure OpenAI para calcular el número de PTU necesarios para admitir una carga de trabajo determinada.

Estimación del procesamiento aprovisionado y el coste

Para obtener una estimación rápida de la carga de trabajo mediante TPM de entrada y salida, aproveche el planificador de capacidad integrado en la sección de detalles de implementación de la pantalla de diálogo de implementación. El planificador de capacidad integrado forma parte del flujo de trabajo de implementación para ayudar a simplificar el dimensionamiento y la asignación de cuota a una implementación de PTU para una carga de trabajo determinada. Para obtener más información sobre cómo identificar y calcular datos de TPM, revise las recomendaciones en nuestra documentación sobre rendimiento y latencia.

Después de rellenar los datos de entrada y salida de TPM en la calculadora de capacidad integrada, seleccione el botón Calcular para ver la recomendación de asignación de PTU.

Recorte de pantalla de la calculadora de capacidad de PTU del flujo de trabajo de implementación.

Para calcular la capacidad aprovisionada mediante datos de nivel de solicitud, abra el planificador de capacidad en Azure AI Foundry. La calculadora de capacidad se encuentra en Recursos compartidos>Modelo de cuota>Azure OpenAI aprovisionado.

La opción Aprovisionado y el planificador de capacidad solo están disponibles en determinadas regiones dentro del panel de Cuota, si no ve esta opción, establecer la región de cuota en Centro de Suecia hará que esta opción esté disponible. Escriba los parámetros siguientes en función de la carga de trabajo.

Entrada	Descripción
Modelo	Modelo de OpenAI que piensa usar. Por ejemplo: GPT-4
Versión	Versión del modelo que planea usar, por ejemplo, 0614
Llamadas máximas por minuto	Número de llamadas por minuto que se espera que se envíen al modelo
Tokens en la llamada de aviso	Número de tokens en la solicitud de cada llamada al modelo. Las llamadas con mensajes más grandes usan más de la implementación de PTU. Actualmente, esta calculadora asume un único valor de solicitud para las cargas de trabajo con una gran varianza. Se recomienda realizar pruebas comparativas de la implementación sobre el tráfico para determinar la estimación más precisa de PTU necesaria para la implementación.
Tokens en la respuesta del modelo	Número de tokens generados de cada llamada al modelo. Las llamadas con tamaños de generación más grandes usan más de la implementación de PTU. Actualmente, esta calculadora asume un único valor de solicitud para las cargas de trabajo con una gran varianza. Se recomienda realizar pruebas comparativas de la implementación sobre el tráfico para determinar la estimación más precisa de PTU necesaria para la implementación.

Después de rellenar los detalles necesarios, seleccione el botón Calcular en la columna de salida.

Los valores de la columna de salida son el valor estimado de las unidades de PTU necesarias para las entradas de carga de trabajo proporcionadas. El primer valor de salida representa las unidades de PTU estimadas necesarias para la carga de trabajo, redondeadas al incremento de escala de PTU más cercano. El segundo valor de salida representa las unidades de PTU estimadas sin procesar necesarias para la carga de trabajo. Los totales del token se calculan mediante la siguiente ecuación: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Nota:

Las calculadoras de capacidad proporcionan una estimación basada en criterios de entrada simples. La manera más precisa de determinar la capacidad es realizar pruebas comparativas de una implementación con una carga de trabajo representacional para su caso de uso.

Descripción del modelo de compra de procesamiento aprovisionado

Azure OpenAI aprovisionado, aprovisionado por zona de datos y aprovisionado global se adquieren bajo demanda por horas en función del número de PTU implementadas, con importantes descuentos disponibles mediante la compra de las reservas de Azure.

El modelo por hora es útil para las necesidades de implementación a corto plazo, como validar nuevos modelos o adquirir capacidad para un hackatón.  Sin embargo, los descuentos proporcionados por las reservas de Azure para Azure OpenAI aprovisionado, aprovisionado por zona de datos y aprovisionado global son considerables y la mayoría de los clientes con un uso habitual a largo plazo encontrarán un modelo reservado para ser una mejor propuesta de valor.

Nota:

Los clientes de Azure OpenAI aprovisionado incorporados antes de la actualización de autoservicio de agosto usan un modelo de compra denominado Modelo de compromiso. Estos clientes pueden seguir usando este modelo de compra anterior junto con el modelo de compra por hora o reserva. El modelo de compromiso no está disponible para los nuevos clientes ni los nuevos modelos introducidos después de agosto de 2024. Para más información sobre el modelo de compra de compromiso y las opciones para la coexistencia y la migración, consulte la actualización de agosto de Azure OpenAI aprovisionado.

Uso por hora

Las implementaciones aprovisionadas, aprovisionadas por zona de datos y aprovisionadas globales se cobran una tarifa por hora ($/PTU/hr) sobre el número de PTU que se han implementado.  Por ejemplo, una implementación de 300 PTU se cobrará 300 veces el precio por hora.  Todos los precios de Azure OpenAI están disponibles en la Calculadora de precios de Azure.

Si existe una implementación durante una hora parcial, recibirá un cargo prorrateado en función del número de minutos que se implementó durante la hora.  Por ejemplo, una implementación que existe durante 15 minutos durante una hora recibirá 1/4 del cargo por hora. 

Si se cambia el tamaño de la implementación, los costes de la implementación se ajustarán para que coincidan con el nuevo número de PTUs.

Pagar por implementaciones aprovisionadas, aprovisionadas por zona de datos y aprovisionadas globales cada hora es ideal para escenarios de implementación a corto plazo.  Por ejemplo: Pruebas comparativas de calidad y rendimiento de nuevos modelos, o aumento temporal de la capacidad de PTU para cubrir un evento como un hackatón. 

Los clientes que requieren un uso a largo plazo de implementaciones aprovisionadas, aprovisionadas por zonas de datos y aprovisionadas globales, podrían pagar significativamente menos al mes mediante la compra de un descuento a largo plazo a través de Azure Reservations, tal como se describe en la sección siguiente.

Nota:

No se recomienda escalar las implementaciones de producción de acuerdo con el tráfico entrante y pagarlas exclusivamente cada hora. Hay dos motivos para ello:

El ahorro de costes que se consigue mediante la compra de reservas de Azure para Azure OpenAI aprovisionado, aprovisionado por zona de datos y aprovisionado global es significativo y, en muchos casos, será menos costoso mantener un tamaño de implementación para el volumen de producción completo pagado por medio de una reserva de lo que sería escalar la implementación con tráfico entrante.
Tener cuota aprovisionada (PTU) sin usar no garantiza que esa capacidad estará disponible para admitir un aumento del tamaño de la implementación cuando sea necesario. La cuota limita el número máximo de PTU que se pueden implementar, pero no es una garantía de capacidad. Es posible que la capacidad aprovisionada para cada región y modelo cambie dinámicamente a lo largo del día y no esté disponible cuando sea necesario. Como resultado, se recomienda mantener una implementación permanente para cubrir las necesidades de tráfico (pagadas a través de una reserva).
Los cargos por las implementaciones en un recurso eliminado continuarán hasta que se purgue el recurso. Para evitar esto, elimine la implementación de un recurso antes de eliminar el recurso. Para obtener más información, vea Recuperación o purga de recursos eliminados de los servicios de Azure AI.

Reservas de Azure para implementaciones de Azure OpenAI aprovisionadas

Los descuentos sobre el precio de uso por hora se pueden obtener mediante la compra de una reserva de Azure para Azure OpenAI aprovisionado, aprovisionado por zona de datos y aprovisionado global. Una reserva de Azure es un mecanismo de descuento a términos compartido por muchos productos de Azure. Por ejemplo, Proceso y Cosmos DB. Para Azure OpenAI aprovisionado, aprovisionado por zona de datos y aprovisionado global, la reserva proporciona un descuento a cambio de confirmar el pago del número fijo de PTU durante un período de un mes o de un año. 

Las reservas de Azure se compran a través de Azure Portal, no con el vínculo de Azure AI Foundry al portal de reservas de Azure.
Las reservas se adquieren de forma regional y pueden tener un ámbito flexible para cubrir el uso de un grupo de implementaciones. El ámbitos de reserva incluye:
- Grupos de recursos individual o suscripciones
- Un grupo de suscripciones a un grupo de administración
- Todas las suscripciones en una cuenta de facturación
Se pueden comprar nuevas reservas para cubrir el mismo ámbito que las reservas existentes, para permitir el descuento de las nuevas implementaciones aprovisionadas. El ámbito de las reservas existentes también se puede actualizar en cualquier momento sin penalización, por ejemplo, para cubrir una nueva suscripción.
Las reservas para implementaciones globales, de zona de datos y regionales no son intercambiables. Debe comprar una reserva independiente para cada tipo de implementación.
Las reservas se pueden cancelar después de la compra, pero los créditos están limitados.
Si el tamaño de las implementaciones aprovisionadas dentro del ámbito de una reserva supera la cantidad de la reserva, el exceso se cobra según la tarifa horaria. Por ejemplo, si las implementaciones que ascienden a 250 PTU existen dentro del ámbito de una reserva de 200 PTU, se cobrarán 50 PTUs cada hora hasta que los tamaños de implementación se reduzcan a 200 PTU o se cree una nueva reserva para cubrir los 50 restantes.
Las reservas garantizan un precio con descuento para el período seleccionado.  No reservan capacidad en el servicio ni garantizan que estará disponible cuando se cree una implementación. Se recomienda encarecidamente que los clientes creen implementaciones antes de comprar una reserva para evitar la sobreadquisición de una reserva.

Importante

La disponibilidad de la capacidad para las implementaciones de modelos es dinámica y cambia con frecuencia entre regiones y modelos. Para evitar que compre una reserva para más PTU de las que puede usar, cree primero las implementaciones y, a continuación, compre la reserva de Azure para cubrir las PTU que ha implementado. Este procedimiento recomendado garantizará que pueda aprovechar al máximo el descuento por reserva e impedirá que compre un compromiso de término que no pueda usar.
Los requisitos de la directiva de inquilino y rol de Azure para comprar una reserva son diferentes de los necesarios para crear una implementación o un recurso de Azure OpenAI. Compruebe la autorización para comprar reservas con antelación a la necesidad de hacerlo. Consulte la documentación sobre reservas aprovisionadas de Azure OpenAI para más información.

Importante: dimensionamiento de Azure OpenAI aprovisionado

Los importes de PTU en las compras de reservas son independientes de las PTU asignadas en la cuota o usadas en las implementaciones. Es posible comprar una reserva para más PTU de las que tiene en la cuota o puede implementarse para la región, el modelo o la versión deseados. Los créditos para la sobreadquisición de una reserva son limitados y los clientes deben tomar medidas para asegurarse de que mantienen sus tamaños de reserva en línea con sus PTU implementadas.

El procedimiento recomendado es comprar siempre una reserva una vez creadas las implementaciones. Esto impide la compra de una reserva y, a continuación, averiguar que la capacidad necesaria no está disponible para la región o el modelo deseados.

Las reservas para implementaciones globales, de zona de datos y regionales no son intercambiables. Debe comprar una reserva independiente para cada tipo de implementación.

Para ayudar a los clientes a comprar los importes de reserva correctos. El número total de PTU en una suscripción y región que puede cubrir una reserva se muestran en la página Cuotas de Azure AI Foundry. Vea el mensaje "PTU disponibles para la reserva".

Administración de reservas de Azure

Una vez creada una reserva, se recomienda supervisarla para asegurarse de que recibe el uso que espera. Esto se puede hacer a través del Portal de reservas de Azure o Azure Monitor. Puede encontrar más información sobre estos artículos y otros:

Compartir a través de

Incorporación de unidades de procesamiento aprovisionado

Unidades de procesamiento aprovisionadas (PTU)

Escenarios típicos de PTU

Dimensionamiento y estimación: implementaciones aprovisionadas

Estimación del procesamiento aprovisionado y el coste

Descripción del modelo de compra de procesamiento aprovisionado

Uso por hora

Reservas de Azure para implementaciones de Azure OpenAI aprovisionadas

Importante: dimensionamiento de Azure OpenAI aprovisionado

Pasos siguientes

Comentarios

Recursos adicionales