Adicionar e configurar modelos ao serviço de inferência de modelo de IA do Azure
Você pode decidir e configurar quais modelos estão disponíveis para inferência no ponto de extremidade de inferência do modelo do recurso. Quando um determinado modelo é configurado, você pode gerar previsões a partir dele, indicando o nome do modelo ou o nome da implantação em suas solicitações. Não são necessárias mais alterações no seu código para usá-lo.
Neste artigo, você aprenderá a adicionar um novo modelo ao serviço de inferência de modelo de IA do Azure nos serviços de IA do Azure.
Pré-requisitos
Para concluir este artigo, precisa de:
- Uma subscrição do Azure. Se você estiver usando Modelos do GitHub, poderá atualizar sua experiência e criar uma assinatura do Azure no processo. Saiba mais em Atualizar de Modelos GitHub para Modelos de IA do Azure em Serviços de IA.
- Um recurso de serviços de IA do Azure. Para obter mais informações, consulte Criar um recurso dos Serviços de IA do Azure.
Adicionar um modelo
Ao contrário dos Modelos do GitHub, onde todos os modelos já estão configurados, o recurso Serviços de IA do Azure permite controlar quais modelos estão disponíveis em seu ponto de extremidade e em qual configuração.
Você pode adicionar todos os modelos necessários no ponto de extremidade usando o Azure AI Foundry para GitHub. No exemplo a seguir, adicionamos um Mistral-Large
modelo no serviço:
Vá para a seção Catálogo de modelos no Azure AI Foundry for GitHub.
Desloque-se para o modelo em que está interessado e selecione-o.
Você pode rever os detalhes do modelo no cartão modelo.
Selecione Implementar.
Para fornecedores de modelos que exijam termos de contrato adicionais, ser-lhe-á pedido que aceite esses termos. Por exemplo, os modelos Mistral pedem-lhe para aceitar outros termos. Aceite os termos nesses casos selecionando Assinar e implantar.
Você pode definir as configurações de implantação neste momento. Por padrão, a implantação recebe o nome do modelo que você está implantando. O nome da
model
implantação é usado no parâmetro para a solicitação de roteamento para essa implantação de modelo específico. Essa configuração permite que você também configure nomes específicos para seus modelos ao anexar configurações específicas. Por exemplo,o1-preview-safe
para um modelo com um filtro de conteúdo de segurança de conteúdo rigoroso.
Gorjeta
Cada modelo pode suportar diferentes tipos de implantações, fornecendo diferentes garantias de residência ou taxa de transferência de dados. Consulte os tipos de implantação para obter mais detalhes.
- Use a opção Personalizar se precisar alterar configurações como filtro de conteúdo ou limitação de taxa (se disponível).
Selecione Implementar.
Quando a implantação for concluída, o novo modelo será listado na página e estará pronto para ser usado.
Use o modelo
Os modelos implantados nos serviços de IA do Azure podem ser consumidos usando o ponto de extremidade de inferência do modelo de IA do Azure para o recurso.
Para utilizá-lo:
Obtenha a URL e as chaves do ponto de extremidade de inferência do modelo de IA do Azure na página de implantação ou na página Visão geral. Se você estiver usando a autenticação do Microsoft Entra ID, não precisará de uma chave.
Use a URL do ponto de extremidade de inferência do modelo e as chaves de antes ao construir seu cliente. O exemplo a seguir usa o pacote Azure AI Inference:
Instale o pacote
azure-ai-inference
usando seu gerenciador de pacotes, como pip:pip install azure-ai-inference>=1.0.0b5
Aviso
O recurso Serviços de IA do Azure requer a versão
azure-ai-inference>=1.0.0b5
para Python.Em seguida, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir finalizações de chat:
import os from azure.ai.inference import ChatCompletionsClient from azure.core.credentials import AzureKeyCredential client = ChatCompletionsClient( endpoint=os.environ["AZUREAI_ENDPOINT_URL"], credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]), )
Explore nossos exemplos e leia a documentação de referência da API para começar.
Ao construir sua solicitação, indique o parâmetro
model
e insira o nome de implantação do modelo que você criou.from azure.ai.inference.models import SystemMessage, UserMessage response = client.complete( messages=[ SystemMessage(content="You are a helpful assistant."), UserMessage(content="Explain Riemann's conjecture in 1 paragraph"), ], model="mistral-large" ) print(response.choices[0].message.content)
Gorjeta
Ao usar o ponto de extremidade, você pode alterar o parâmetro para qualquer implantação de model
modelo disponível em seu recurso.
Além disso, os modelos do Azure OpenAI podem ser consumidos usando o ponto de extremidade do serviço Azure OpenAI no recurso. Este ponto de extremidade é exclusivo para cada implantação de modelo e tem sua própria URL.
Personalização da implantação do modelo
Ao criar implantações de modelo, você pode definir outras configurações, incluindo filtragem de conteúdo e limites de taxa. Para definir mais configurações, selecione a opção Personalizar no assistente de implantação.
Nota
As configurações podem variar dependendo do modelo que você está implantando.