Partilhar via


Implantar modelos para inferência e previsão em lote

Este artigo descreve o que o Databricks recomenda para inferência em lote e streaming.

Para servir o modelo em tempo real no Azure Databricks, consulte Model serving with Azure Databricks.

Use ai_query para inferência de lote

Importante

Esta funcionalidade está em Pré-visualização Pública.

O Databricks recomenda o uso ai_query com o Model Serving para inferência em lote. ai_query é uma função interna do Databricks SQL que permite consultar o modelo existente que serve pontos de extremidade usando SQL. Foi verificado para processar de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.

Para experimentação rápida, pode ser usado com ai_query de extremidade de pagamento por token, uma vez que esses pontos de extremidade são pré-configurados em seu espaço de trabalho.

Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte Executar inferência LLM em lote usando ai_query.