Inferência em lote usando a taxa de transferência provisionada de APIs do Modelo de Base

Artigo
10/31/2024

Este artigo fornece um bloco de anotações de exemplo que executa a inferência em lote em um ponto de extremidade de taxa de transferência provisionado usando APIs e ai_query do Modelo de Base.

Requisitos

Um espaço de trabalho em uma região suportada por APIs do Modelo de Fundação.
Um dos seguintes:
- Computação multiuso com tamanho i3.2xlarge de computação ou maior execução do Databricks Runtime 15,4 ML LTS ou superior com pelo menos 2 trabalhadores.
- SQL warehouse médio e maior.

Executar inferência em lote

Geralmente, a configuração da inferência em lote envolve 2 etapas:

Criação do ponto de extremidade a ser usado para inferência em lote.
Construindo as solicitações em lote e enviando essas solicitações para o ponto de extremidade de inferência em lote usando ai_queryo .

O bloco de anotações de exemplo cobre essas etapas e demonstra a inferência em lote usando o modelo Meta Llama 3.1 70B.

Inferência em lote com um bloco de anotações de ponto de extremidade de taxa de transferência provisionada

Obter o bloco de notas

Recursos adicionais

Comece a consultar LLMs no Databricks

Partilhar via

Inferência em lote usando a taxa de transferência provisionada de APIs do Modelo de Base

Requisitos

Executar inferência em lote

Inferência em lote com um bloco de anotações de ponto de extremidade de taxa de transferência provisionada

Recursos adicionais

Comentários

Recursos adicionais