Adicionar e configurar modelos para o serviço de inferência de modelo da IA do Azure
Você pode decidir e configurar quais modelos estão disponíveis para inferência no ponto de extremidade de inferência de modelo do recurso. Quando um determinado modelo está configurado, você pode então gerar previsões a partir dele indicando seu nome de modelo ou nome de implantação nas suas solicitações. Nenhuma outra alteração é necessária no seu código para usá-lo.
Neste artigo, você aprenderá a adicionar um novo modelo ao serviço de inferência do modelo de IA do Azure nos serviços de IA do Azure.
Pré-requisitos
Para concluir este artigo, você precisa do seguinte:
- Uma assinatura do Azure. Se você estiver usando Modelos do GitHub, poderá atualizar sua experiência e criar uma assinatura do Azure no processo. Saiba mais em Atualização de Modelos do GitHub para Modelos de IA do Azure nos Serviços de IA.
- Um recurso dos serviços de IA do Azure. Para obter mais informações, confira Criar um recurso dos Serviços de IA do Azure.
Adicionar um modelo
Ao contrário dos Modelos do GitHub, onde todos os modelos já estão configurados, o recurso dos Serviços de IA do Azure permite que você controle quais modelos estão disponíveis em seu ponto de extremidade e sob qual configuração.
Você pode adicionar todos os modelos necessários no ponto de extremidade usando o Azure AI Foundry para GitHub. No exemplo a seguir, adicionamos um modelo Mistral-Large
no serviço:
Acesse a seção Catálogo de modelos no Azure AI Foundry para GitHub.
Role até o modelo do seu interesse e selecione-o.
Você pode revisar os detalhes do modelo no cartão do modelo.
Selecione Implantar.
Para provedores de modelos que exigem termos de contrato extras, você será solicitado a aceitar esses termos. Por exemplo, os modelos Mistral pedem que você aceite outros termos. Aceite os termos nesses casos selecionando Assinar e implantar.
Você pode configurar as configurações de implantação nesse momento. Por padrão, a implantação receberá o nome do modelo que você está implantando. O nome da implantação será usado no parâmetro
model
para solicitação para rotear para essa implantação de modelo específica. Essa configuração permite que você também configure nomes específicos para seus modelos quando anexar configurações específicas. Por exemplo,o1-preview-safe
para um modelo com um filtro de segurança de conteúdo estrito.
Dica
Cada modelo pode dar suporte para diferentes tipos de implantações, fornecendo diferentes garantias de residência de dados ou taxa de transferência. Confira os tipos de implantação para obter mais detalhes.
- Use a opção Personalizar se precisar alterar configurações como filtro de conteúdo ou limitação de fluxo (se disponível).
Selecione Implantar.
Assim que a implantação for concluída, o novo modelo será listado na página e estará pronto para ser usado.
Usar o modelo
Os modelos implantados nos serviços de IA do Azure podem ser consumidos usando o ponto de extremidade de inferência do modelo de IA do Azure para o recurso.
Para usá-lo:
Obtenha a URL do ponto de extremidade de inferência do modelo de IA do Azure e as chaves da página de implantação ou da página Visão geral. Se você estiver usando a autenticação do Microsoft Entra ID, não precisará de uma chave.
Use a URL do ponto de extremidade de inferência do modelo e as chaves anteriores ao criar seu cliente. O exemplo a seguir usa o pacote de Inferência de IA do Azure:
Instale o pacote
azure-ai-inference
usando seu gerenciador de pacotes, como o pip:pip install azure-ai-inference>=1.0.0b5
Aviso
O recurso dos Serviços de IA do Azure requer a versão
azure-ai-inference>=1.0.0b5
para Python.Em seguida, você poderá usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir conclusões de chat:
import os from azure.ai.inference import ChatCompletionsClient from azure.core.credentials import AzureKeyCredential client = ChatCompletionsClient( endpoint=os.environ["AZUREAI_ENDPOINT_URL"], credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]), )
Explore nossos exemplos e leia a documentação de referência da API para começar.
Ao construir sua solicitação, indique o parâmetro
model
e insira o nome da implantação do modelo que você criou.from azure.ai.inference.models import SystemMessage, UserMessage response = client.complete( messages=[ SystemMessage(content="You are a helpful assistant."), UserMessage(content="Explain Riemann's conjecture in 1 paragraph"), ], model="mistral-large" ) print(response.choices[0].message.content)
Dica
Ao usar o ponto de extremidade, você pode alterar o parâmetro model
para qualquer implantação de modelo disponível no seu recurso.
Além disso, os modelos do OpenAI do Azure podem ser consumidos usando o ponto de extremidade do serviço OpenAI do Azure no recurso. Esse ponto de extremidade é exclusivo para cada implantação de modelo e possui sua própria URL.
Personalização de implantação de modelo
Ao criar implantações de modelo, você pode configurar outras configurações, incluindo filtragem de conteúdo e limites de taxa. Para definir mais configurações, selecione a opção Personalizar no assistente de implantação.
Observação
As configurações podem variar dependendo do modelo que você está implantando.