Implementación de un modelo en un punto de conexión
Al desarrollar una aplicación de IA generativa, debe integrar modelos de lenguaje en la aplicación. Para poder usar un modelo de lenguaje, debe implementar el modelo. Vamos a explorar cómo implementar modelos de lenguaje en Azure AI Foundry, después de comprender por qué implementar un modelo.
Descripción del motivo de la implementación de un modelo
Los modelos de lenguaje, como los modelos de aprendizaje automático tradicionales, están diseñados para generar resultados en función de algunas entradas. Para beneficiarse de un modelo, quiere una solución que pueda enviar la entrada a un modelo, que la procese y, después, visualizar la salida en algún lugar.
Con las aplicaciones de IA generativa, tiene una aplicación de chat que espera la entrada de un usuario, a menudo en forma de pregunta. Quiere que el modelo procese esa entrada y genere una respuesta que pueda devolver, mediante la aplicación de chat, al usuario. Para integrar un modelo de lenguaje que pueda procesar datos de entrada y generar datos de salida, necesita que el modelo se implemente en un punto de conexión.
Un punto de conexión es una dirección URL específica en la que se puede acceder a un modelo o servicio implementados. Actúa como una puerta de enlace para que los usuarios envíen sus solicitudes al modelo y reciban los resultados. Cada implementación de modelo suele tener su propio punto de conexión único, lo que permite que diferentes aplicaciones se comuniquen con el modelo mediante una API (interfaz de programación de aplicaciones).
Al implementar un modelo de lenguaje desde el catálogo de modelos con Azure AI Foundry, obtendrá un punto de conexión, que consta de un URI de destino (Identificador uniforme de recursos) y una clave única. Por ejemplo, un URI de destino para un modelo GPT-3.5 implementado puede ser el siguiente:
https://ai-aihubdevdemo.openai.azure.com/openai/deployments/gpt-35-turbo/chat/completions?api-version=2023-03-15-preview
El URI incluye el nombre del centro de inteligencia artificial, el nombre del modelo implementado y especifica lo que quiere que haga el modelo. En el ejemplo, el modelo GPT-3.5 se usa para la finalización del chat.
Para proteger los modelos implementados, cada implementación incluye una clave. Solo tiene autorización para enviar y recibir solicitudes a y desde el URI de destino, si también proporciona la clave para autenticarse.
Para usar un modelo implementado, normalmente se realiza una llamada API. Puede realizar una llamada API mediante código como Python o C#, o una herramienta como Azure AI Foundry o Postman. Una llamada API implica enviar una solicitud al punto de conexión del modelo mediante la API. La solicitud normalmente incluye los datos de entrada que quiere que procese el modelo. Después, el modelo procesa los datos y devuelve una respuesta con los resultados. De este modo, puede interactuar con el modelo implementado y usar sus funcionalidades en las aplicaciones.
Ahora que comprende por qué desea implementar un modelo, vamos a explorar las opciones de implementación con Azure AI Foundry.
Implementación de un modelo de lenguaje con Azure AI Foundry
Al implementar un modelo de lenguaje con Azure AI Foundry, tiene varios tipos disponibles, que dependen del modelo que desea implementar:
- Servicio Azure OpenAI para implementar modelos de Azure OpenAI.
- Inferencia de modelos de Azure AI para implementar modelos y modelos de Azure OpenAI como servicio.
- API sin servidor para implementar modelos como servicio.
- Proceso administrado para implementar modelos personalizados y de código abierto.
El costo asociado dependerá del tipo de modelo que implemente, la opción de implementación que elija y lo que está haciendo con el modelo:
Actividad | Modelos de Azure OpenAI | Inferencia de modelos de Azure AI | Modelos implementados como API sin servidor (pago por uso) | Modelos implementados con proceso administrado por el usuario |
---|---|---|---|---|
Implementación del modelo | No, no se le factura la implementación de un modelo de Azure OpenAI en el proyecto. | No, no se le factura la implementación de un modelo de Azure OpenAI en el proyecto. | Sí, se te factura mínimamente por la infraestructura del punto de conexión. | Sí, se te factura por minuto la infraestructura que hospeda el modelo. |
Llamada al punto de conexión | Sí, se le factura según el uso del token. | Sí, se le factura según el uso del token. | Sí, se le factura según el uso del token. | Ninguno. |