Implantar um modelo em um ponto de extremidade
Ao desenvolver um aplicativo de IA generativa, você precisa integrar modelos de linguagem ao seu aplicativo. Para poder usar um modelo de linguagem, você precisa implantar o modelo. Vamos explorar como implantar modelos de linguagem no Azure AI Foundry, mas, primeiro, vamos entender por que devemos implantar um modelo.
Entenda por que implantar um modelo
Os modelos de linguagem, assim como os modelos tradicionais de aprendizado de máquina, são projetados para gerar resultados com base em alguma entrada. Para se beneficiar de um modelo, você deseja uma solução que possa enviar entrada para um modelo, que o modelo processa e, em seguida, visualiza a saída em algum lugar.
Com os aplicativos de IA generativa, você tem um aplicativo de chat que espera entradas de dados de um usuário, geralmente na forma de uma pergunta. Você deseja que o modelo processe essa entrada e gere uma resposta que possa ser enviada de volta ao usuário por meio do aplicativo de chat. Para integrar um modelo de linguagem que possa processar dados de entrada e gerar dados de saída, você precisa que o modelo seja implantado em um ponto de extremidade.
Um ponto de extremidade é uma URL específica em que um modelo ou serviço implantado pode ser acessado. Ele funciona como um gateway para que os usuários enviem suas solicitações ao modelo e recebam os resultados. Cada implantação de modelo geralmente possui seu próprio ponto de extremidade exclusivo, permitindo que diferentes aplicativos se comuniquem com o modelo por meio de uma API (Interface de Programação de Aplicativo).
Ao implantar um modelo de linguagem do catálogo de modelos com o Azure AI Foundry, você recebe um ponto de extremidade que consiste em um URI de destino (Identificador Uniforme de Recursos) e uma chave exclusiva. Por exemplo, um URI de destino para um modelo GPT-3.5 implantado pode ser:
https://ai-aihubdevdemo.openai.azure.com/openai/deployments/gpt-35-turbo/chat/completions?api-version=2023-03-15-preview
O URI inclui o nome do hub de IA, o nome do modelo implantado e especifica o que você deseja que o modelo faça. No exemplo, o modelo GPT-3.5 é usado para conclusão do chat.
Para proteger seus modelos implantados, cada implantação vem com uma chave. Você só está autorizado a enviar e receber solicitações de e para o URI de destino se também fornecer a chave para autenticação.
Para usar um modelo implantado, você normalmente faz uma chamada à API. Você pode fazer uma chamada à API usando códigos como Python ou C#, ou uma ferramenta como o Azure AI Foundry ou o Postman. Uma chamada à API envolve o envio de uma solicitação ao ponto de extremidade do modelo usando a API. A solicitação geralmente inclui os dados de entrada que você deseja que o modelo processe. Em seguida, o modelo processará os dados e enviará uma resposta com os resultados. Dessa forma, você pode interagir com o modelo implantado e utilizar seus recursos em seus aplicativos.
Agora que você entendeu por que quer implantar um modelo, vamos explorar as opções de implantação no Azure AI Foundry.
Implantar um modelo de linguagem com o Azure AI Foundry
Ao implantar um modelo de linguagem com o Azure AI Foundry, existem vários tipos disponíveis, dependendo do modelo que você quiser implantar:
Atividade | Modelos do OpenAI do Azure | Modelos implantados como APIs sem servidor (pagamento conforme o uso) | Modelos implantados com computação gerenciada pelo usuário |
---|---|---|---|
Implantar o modelo | Não, você não é cobrado por implantar um modelo do OpenAI do Azure em seu projeto. | Sim, há uma cobrança mínima pela infraestrutura do ponto de extremidade. | Sim, você é cobrado por minuto pela infraestrutura que hospeda o modelo. |
Chamar o ponto de extremidade | Sim, você será cobrado com base no uso do token. | Sim, você será cobrado com base no uso do token. | Nenhum. |