Partilhar via


Adicionar e configurar modelos ao serviço de inferência de modelo de IA do Azure

Você pode decidir e configurar quais modelos estão disponíveis para inferência no ponto de extremidade de inferência do modelo do recurso. Quando um determinado modelo é configurado, você pode gerar previsões a partir dele, indicando o nome do modelo ou o nome da implantação em suas solicitações. Não são necessárias mais alterações no seu código para usá-lo.

Neste artigo, você aprenderá a adicionar um novo modelo ao serviço de inferência de modelo de IA do Azure nos serviços de IA do Azure.

Pré-requisitos

Para concluir este artigo, precisa de:

Adicionar um modelo

Ao contrário dos Modelos do GitHub, onde todos os modelos já estão configurados, o recurso Serviços de IA do Azure permite controlar quais modelos estão disponíveis em seu ponto de extremidade e em qual configuração.

Você pode adicionar todos os modelos necessários no ponto de extremidade usando o Azure AI Foundry para GitHub. No exemplo a seguir, adicionamos um Mistral-Large modelo no serviço:

  1. Vá para a seção Catálogo de modelos no Azure AI Foundry for GitHub.

  2. Desloque-se para o modelo em que está interessado e selecione-o.

  3. Você pode rever os detalhes do modelo no cartão modelo.

  4. Selecione Implementar.

  5. Para fornecedores de modelos que exijam termos de contrato adicionais, ser-lhe-á pedido que aceite esses termos. Por exemplo, os modelos Mistral pedem-lhe para aceitar outros termos. Aceite os termos nesses casos selecionando Assinar e implantar.

    Uma captura de tela mostrando como concordar com os termos e condições de um modelo Mistral-Large.

  6. Você pode definir as configurações de implantação neste momento. Por padrão, a implantação recebe o nome do modelo que você está implantando. O nome da model implantação é usado no parâmetro para a solicitação de roteamento para essa implantação de modelo específico. Essa configuração permite que você também configure nomes específicos para seus modelos ao anexar configurações específicas. Por exemplo, o1-preview-safe para um modelo com um filtro de conteúdo de segurança de conteúdo rigoroso.

Gorjeta

Cada modelo pode suportar diferentes tipos de implantações, fornecendo diferentes garantias de residência ou taxa de transferência de dados. Consulte os tipos de implantação para obter mais detalhes.

  1. Use a opção Personalizar se precisar alterar configurações como filtro de conteúdo ou limitação de taxa (se disponível).

Uma captura de tela mostrando como personalizar a implantação, se necessário.

  1. Selecione Implementar.

  2. Quando a implantação for concluída, o novo modelo será listado na página e estará pronto para ser usado.

Use o modelo

Os modelos implantados nos serviços de IA do Azure podem ser consumidos usando o ponto de extremidade de inferência do modelo de IA do Azure para o recurso.

Para utilizá-lo:

  1. Obtenha a URL e as chaves do ponto de extremidade de inferência do modelo de IA do Azure na página de implantação ou na página Visão geral. Se você estiver usando a autenticação do Microsoft Entra ID, não precisará de uma chave.

    Uma captura de tela mostrando como obter a URL e a chave associadas à implantação.

  2. Use a URL do ponto de extremidade de inferência do modelo e as chaves de antes ao construir seu cliente. O exemplo a seguir usa o pacote Azure AI Inference:

    Instale o pacote azure-ai-inference usando seu gerenciador de pacotes, como pip:

    pip install azure-ai-inference>=1.0.0b5
    

    Aviso

    O recurso Serviços de IA do Azure requer a versão azure-ai-inference>=1.0.0b5 para Python.

    Em seguida, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir finalizações de chat:

    import os
    from azure.ai.inference import ChatCompletionsClient
    from azure.core.credentials import AzureKeyCredential
    
    client = ChatCompletionsClient(
        endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
        credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
    )
    

    Explore nossos exemplos e leia a documentação de referência da API para começar.

  3. Ao construir sua solicitação, indique o parâmetro model e insira o nome de implantação do modelo que você criou.

    from azure.ai.inference.models import SystemMessage, UserMessage
    
    response = client.complete(
        messages=[
            SystemMessage(content="You are a helpful assistant."),
            UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
        ],
        model="mistral-large"
    )
    
    print(response.choices[0].message.content)
    

Gorjeta

Ao usar o ponto de extremidade, você pode alterar o parâmetro para qualquer implantação de model modelo disponível em seu recurso.

Além disso, os modelos do Azure OpenAI podem ser consumidos usando o ponto de extremidade do serviço Azure OpenAI no recurso. Este ponto de extremidade é exclusivo para cada implantação de modelo e tem sua própria URL.

Personalização da implantação do modelo

Ao criar implantações de modelo, você pode definir outras configurações, incluindo filtragem de conteúdo e limites de taxa. Para definir mais configurações, selecione a opção Personalizar no assistente de implantação.

Nota

As configurações podem variar dependendo do modelo que você está implantando.

Próximos passos