Compartilhar via


Adicionar e configurar modelos para o serviço de inferência de modelo da IA do Azure

Você pode decidir e configurar quais modelos estão disponíveis para inferência no ponto de extremidade de inferência de modelo do recurso. Quando um determinado modelo está configurado, você pode então gerar previsões a partir dele indicando seu nome de modelo ou nome de implantação nas suas solicitações. Nenhuma outra alteração é necessária no seu código para usá-lo.

Neste artigo, você aprenderá a adicionar um novo modelo ao serviço de inferência do modelo de IA do Azure nos serviços de IA do Azure.

Pré-requisitos

Para concluir este artigo, você precisa do seguinte:

Adicionar um modelo

Ao contrário dos Modelos do GitHub, onde todos os modelos já estão configurados, o recurso dos Serviços de IA do Azure permite que você controle quais modelos estão disponíveis em seu ponto de extremidade e sob qual configuração.

Você pode adicionar todos os modelos necessários no ponto de extremidade usando o Azure AI Foundry para GitHub. No exemplo a seguir, adicionamos um modelo Mistral-Large no serviço:

  1. Acesse a seção Catálogo de modelos no Azure AI Foundry para GitHub.

  2. Role até o modelo do seu interesse e selecione-o.

  3. Você pode revisar os detalhes do modelo no cartão do modelo.

  4. Selecione Implantar.

  5. Para provedores de modelos que exigem termos de contrato extras, você será solicitado a aceitar esses termos. Por exemplo, os modelos Mistral pedem que você aceite outros termos. Aceite os termos nesses casos selecionando Assinar e implantar.

    Uma captura de tela mostrando como concordar com os termos e condições de um modelo Mistral-Large.

  6. Você pode configurar as configurações de implantação nesse momento. Por padrão, a implantação receberá o nome do modelo que você está implantando. O nome da implantação será usado no parâmetro model para solicitação para rotear para essa implantação de modelo específica. Essa configuração permite que você também configure nomes específicos para seus modelos quando anexar configurações específicas. Por exemplo, o1-preview-safe para um modelo com um filtro de segurança de conteúdo estrito.

Dica

Cada modelo pode dar suporte para diferentes tipos de implantações, fornecendo diferentes garantias de residência de dados ou taxa de transferência. Confira os tipos de implantação para obter mais detalhes.

  1. Use a opção Personalizar se precisar alterar configurações como filtro de conteúdo ou limitação de fluxo (se disponível).

Uma captura de tela mostrando como personalizar a implantação, se necessário.

  1. Selecione Implantar.

  2. Assim que a implantação for concluída, o novo modelo será listado na página e estará pronto para ser usado.

Usar o modelo

Os modelos implantados nos serviços de IA do Azure podem ser consumidos usando o ponto de extremidade de inferência do modelo de IA do Azure para o recurso.

Para usá-lo:

  1. Obtenha a URL do ponto de extremidade de inferência do modelo de IA do Azure e as chaves da página de implantação ou da página Visão geral. Se você estiver usando a autenticação do Microsoft Entra ID, não precisará de uma chave.

    Uma captura de tela mostrando como obter a URL e a chave associadas à implantação.

  2. Use a URL do ponto de extremidade de inferência do modelo e as chaves anteriores ao criar seu cliente. O exemplo a seguir usa o pacote de Inferência de IA do Azure:

    Instale o pacote azure-ai-inference usando seu gerenciador de pacotes, como o pip:

    pip install azure-ai-inference>=1.0.0b5
    

    Aviso

    O recurso dos Serviços de IA do Azure requer a versão azure-ai-inference>=1.0.0b5 para Python.

    Em seguida, você poderá usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir conclusões de chat:

    import os
    from azure.ai.inference import ChatCompletionsClient
    from azure.core.credentials import AzureKeyCredential
    
    client = ChatCompletionsClient(
        endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
        credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
    )
    

    Explore nossos exemplos e leia a documentação de referência da API para começar.

  3. Ao construir sua solicitação, indique o parâmetro model e insira o nome da implantação do modelo que você criou.

    from azure.ai.inference.models import SystemMessage, UserMessage
    
    response = client.complete(
        messages=[
            SystemMessage(content="You are a helpful assistant."),
            UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
        ],
        model="mistral-large"
    )
    
    print(response.choices[0].message.content)
    

Dica

Ao usar o ponto de extremidade, você pode alterar o parâmetro model para qualquer implantação de modelo disponível no seu recurso.

Além disso, os modelos do OpenAI do Azure podem ser consumidos usando o ponto de extremidade do serviço OpenAI do Azure no recurso. Esse ponto de extremidade é exclusivo para cada implantação de modelo e possui sua própria URL.

Personalização de implantação de modelo

Ao criar implantações de modelo, você pode configurar outras configurações, incluindo filtragem de conteúdo e limites de taxa. Para definir mais configurações, selecione a opção Personalizar no assistente de implantação.

Observação

As configurações podem variar dependendo do modelo que você está implantando.

Próximas etapas