Implantar um modelo em um ponto de extremidade
Ao desenvolver um aplicativo de IA generativa, você precisa integrar modelos de linguagem em seu aplicativo. Para poder usar um modelo de linguagem, você precisa implantar o modelo. Vamos explorar como implantar modelos de linguagem no Azure AI Foundry, depois de entender primeiro por que implantar um modelo.
Entender por que implantar um modelo
Os modelos de linguagem, como os modelos tradicionais de aprendizado de máquina, são projetados para gerar saída com base em alguma entrada. Para se beneficiar de um modelo, você deseja uma solução que possa enviar entrada para um modelo, que o modelo processa e, em seguida, visualizar a saída em algum lugar.
Com aplicativos de IA generativa, você tem um aplicativo de bate-papo que espera a entrada de um usuário, muitas vezes na forma de uma pergunta. Você quer que o modelo processe essa entrada e gere uma resposta que você possa enviar de volta, através do aplicativo de chat, para o seu usuário. Para integrar um modelo de linguagem que pode processar dados de entrada e gerar dados de saída, você precisa que o modelo seja implantado em um ponto de extremidade.
Um ponto de extremidade é uma URL específica onde um modelo ou serviço implantado pode ser acessado. Ele atua como um gateway para que os usuários enviem suas solicitações para o modelo e recebam os resultados. Cada implantação de modelo normalmente tem seu próprio ponto de extremidade exclusivo, que permite que diferentes aplicativos se comuniquem com o modelo por meio de uma API (Application Programming Interface).
Ao implantar um modelo de linguagem do catálogo de modelos com o Azure AI Foundry, você obtém um ponto de extremidade, que consiste em um URI (Uniform Resource Identifier) de destino e uma chave exclusiva. Por exemplo, um URI de destino para um modelo GPT-3.5 implantado pode ser:
https://ai-aihubdevdemo.openai.azure.com/openai/deployments/gpt-35-turbo/chat/completions?api-version=2023-03-15-preview
O URI inclui o nome do hub de IA, o nome do modelo implantado e especifica o que você deseja que o modelo faça. No exemplo, o modelo GPT-3.5 é usado para conclusão de chat.
Para proteger seus modelos implantados, cada implantação vem com uma chave. Você só está autorizado a enviar e receber solicitações de e para o URI de destino se também fornecer a chave para autenticar.
Para usar um modelo implantado, você normalmente faz uma chamada de API. Você pode fazer uma chamada de API usando código como Python ou C#, ou uma ferramenta como Azure AI Foundry ou Postman. Uma chamada de API envolve o envio de uma solicitação para o ponto de extremidade do modelo usando a API. A solicitação geralmente inclui os dados de entrada que você deseja que o modelo processe. Em seguida, o modelo processa os dados e envia uma resposta com os resultados. Dessa forma, você pode interagir com o modelo implantado e utilizar seus recursos em seus aplicativos.
Agora que você entende por que deseja implantar um modelo, vamos explorar as opções de implantação com o Azure AI Foundry.
Implantar um modelo de linguagem com o Azure AI Foundry
Ao implantar um modelo de linguagem com o Azure AI Foundry, você tem vários tipos disponíveis, que dependem do modelo que você deseja implantar:
Atividade | Modelos do Azure OpenAI | Modelos implantados como APIs sem servidor (pagamento conforme o uso) | Modelos implantados com computação gerenciada pelo usuário |
---|---|---|---|
Implementar o modelo | Não, você não é cobrado pela implantação de um modelo OpenAI do Azure em seu projeto. | Sim, você é cobrado minimamente de acordo com a infraestrutura do endpoint. | Sim, você é cobrado pela infraestrutura que hospeda o modelo por minuto. |
Chamar o ponto de extremidade | Sim, você é cobrado com base no uso do token. | Sim, você é cobrado com base no uso do token. | Nenhum. |