Compartir vía


Adición y configuración de modelos en el servicio de inferencia de modelos de Azure AI

Puede decidir y configurar qué modelos están disponibles para la inferencia en el punto de conexión de inferencia del modelo del recurso. Cuando se configura un modelo determinado, puede generar predicciones a partir de él si indica su nombre de modelo o nombre de implementación en las solicitudes. No se requieren más cambios en el código para usarlo.

En este artículo, aprenderá a agregar un nuevo modelo al servicio de inferencia del modelo de Azure AI en los servicios de Azure AI.

Requisitos previos

Para completar este artículo, necesitará lo siguiente:

Agregar un modelo

Al contrario de lo que sucede en Modelos de GitHub en los que ya están configurados todos los modelos, el recurso de Servicios de Azure AI permite controlar qué modelos están disponibles en el punto de conexión y en qué configuración.

Puede agregar todos los modelos que necesita en el punto de conexión mediante Azure AI Foundry para GitHub. En el ejemplo siguiente, se agrega un modelo de Mistral-Large en el servicio:

  1. Vaya a la sección Catálogo de modelo de Azure AI Foundry para GitHub.

  2. Desplácese hasta el modelo que le interese y selecciónelo.

  3. Puede revisar los detalles del modelo en la tarjeta del modelo.

  4. Seleccione Implementar.

  5. En el caso de los proveedores de modelos que requieren términos adicionales de contrato, se le pedirá que acepte esos términos. Por ejemplo, los modelos Mistral le piden que acepte otros términos. Para aceptar los términos de esos casos, seleccione Suscribir e implementar.

    Recorte de pantalla en el que se muestra cómo aceptar los términos y condiciones de un modelo Mistral-Large.

  6. Puede configurar las opciones de implementación en este momento. De manera predeterminada, la implementación recibe el nombre del modelo que va a implementar. El nombre de la implementación se usa en el parámetro model para solicitar que se enrute a esta implementación de modelo determinada. Este valor también permite configurar nombres específicos para los modelos al adjuntar configuraciones específicas. Por ejemplo, o1-preview-safe para un modelo con un filtro de contenido de seguridad de contenido estricto.

Sugerencia

Cada modelo puede admitir diferentes tipos de implementaciones, lo que proporciona garantías de residencia o rendimiento de datos diferentes. Vea Tipos de implementación para más información.

  1. Use la opción Personalizar si necesita cambiar valores como filtro de contenido o limitación de velocidad (si está disponible).

Recorte de pantalla en el que se muestra cómo personalizar la implementación si es necesario.

  1. Seleccione Implementar.

  2. Una vez que se completa la implementación, el nuevo modelo se mostrará en la página y estará listo para usarse.

Uso del modelo

Los modelos implementados en Servicios de Azure AI se pueden consumir mediante el punto de conexión de inferencia del modelo de Azure AI para el recurso.

Para usarla:

  1. Obtenga la dirección URL y las claves del punto de conexión de inferencia del modelo de Azure AI desde la página de implementación o la página Información general. Si va a usar la autenticación de Microsoft Entra ID, no necesita una clave.

    Recorte de pantalla en el que se muestra cómo obtener la dirección URL y la clave asociadas a la implementación.

  2. Use la dirección URL del punto de conexión de inferencia del modelo y las claves anteriores al construir el cliente. En el ejemplo siguiente se usa el paquete de inferencia de Azure AI:

    Instale el paquete azure-ai-inference mediante el administrador de paquetes, como pip:

    pip install azure-ai-inference>=1.0.0b5
    

    Advertencia

    El recurso de Servicios de Azure AI necesita la versión azure-ai-inference>=1.0.0b5 para Python.

    A continuación, puede usar el paquete para consumir el modelo. En el ejemplo siguiente se muestra cómo crear un cliente para consumir finalizaciones de chat:

    import os
    from azure.ai.inference import ChatCompletionsClient
    from azure.core.credentials import AzureKeyCredential
    
    client = ChatCompletionsClient(
        endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
        credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
    )
    

    Explore nuestros ejemplos y lea la documentación de referencia de API para empezar a trabajar.

  3. Al construir la solicitud, indique el parámetro model e inserte el nombre de implementación del modelo que ha creado.

    from azure.ai.inference.models import SystemMessage, UserMessage
    
    response = client.complete(
        messages=[
            SystemMessage(content="You are a helpful assistant."),
            UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
        ],
        model="mistral-large"
    )
    
    print(response.choices[0].message.content)
    

Sugerencia

Al usar el punto de conexión, puede cambiar el parámetro model a cualquier implementación de modelo disponible en el recurso.

Además, los modelos de Azure OpenAI se pueden consumir mediante el punto de conexión de servicio de Azure OpenAI en el recurso. Este punto de conexión es exclusivo para cada implementación del modelo y tiene su propia dirección URL.

Personalización de la implementación de modelos

Al crear implementaciones de modelos, puede configurar otras opciones, como el filtrado de contenido y los límites de velocidad. Para configurar más valores, seleccione la opción Personalizar en el Asistente para la implementación.

Nota:

Las configuraciones pueden variar en función del modelo que vaya a implementar.

Pasos siguientes