Inferência em lote usando a taxa de transferência provisionada de APIs do Modelo de Base
Este artigo fornece um bloco de anotações de exemplo que executa a inferência em lote em um ponto de extremidade de taxa de transferência provisionado usando APIs e ai_query do Modelo de Base.
Requisitos
- Um espaço de trabalho em uma região suportada por APIs do Modelo de Fundação.
- Um dos seguintes:
- Computação multiuso com tamanho
i3.2xlarge
de computação ou maior execução do Databricks Runtime 15,4 ML LTS ou superior com pelo menos 2 trabalhadores. - SQL warehouse médio e maior.
- Computação multiuso com tamanho
Executar inferência em lote
Geralmente, a configuração da inferência em lote envolve 2 etapas:
- Criação do ponto de extremidade a ser usado para inferência em lote.
- Construindo as solicitações em lote e enviando essas solicitações para o ponto de extremidade de inferência em lote usando
ai_query
o .
O bloco de anotações de exemplo cobre essas etapas e demonstra a inferência em lote usando o modelo Meta Llama 3.1 70B.