Partilhar via


Inferência em lote usando a taxa de transferência provisionada de APIs do Modelo de Base

Este artigo fornece um bloco de anotações de exemplo que executa a inferência em lote em um ponto de extremidade de taxa de transferência provisionado usando APIs e ai_query do Modelo de Base.

Requisitos

  • Um espaço de trabalho em uma região suportada por APIs do Modelo de Fundação.
  • Um dos seguintes:
    • Computação multiuso com tamanho i3.2xlarge de computação ou maior execução do Databricks Runtime 15,4 ML LTS ou superior com pelo menos 2 trabalhadores.
    • SQL warehouse médio e maior.

Executar inferência em lote

Geralmente, a configuração da inferência em lote envolve 2 etapas:

  1. Criação do ponto de extremidade a ser usado para inferência em lote.
  2. Construindo as solicitações em lote e enviando essas solicitações para o ponto de extremidade de inferência em lote usando ai_queryo .

O bloco de anotações de exemplo cobre essas etapas e demonstra a inferência em lote usando o modelo Meta Llama 3.1 70B.

Inferência em lote com um bloco de anotações de ponto de extremidade de taxa de transferência provisionada

Obter o bloco de notas

Recursos adicionais