Implantar modelos para inferência e previsão em lote

Artigo
01/02/2025

Este artigo descreve o que o Databricks recomenda para inferência em lote.

Para implementação de modelos em tempo real no Azure Databricks, consulte Implantar modelos usando o Mosaic AI Model Serving.

Use ai_query para inferência de lote

Importante

Esta funcionalidade está em Pré-visualização Pública.

O Databricks recomenda o uso ai_query com o Model Serving para inferência em lote. ai_query é uma função interna do Databricks SQL que permite consultar o modelo existente que serve pontos de extremidade usando SQL. Foi verificado para processar de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.

Para experimentação rápida, pode ser usado com ai_query de extremidade de pagamento por token, uma vez que esses pontos de extremidade são pré-configurados em seu espaço de trabalho.

Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte APIs do Modelo de Base de taxa de transferência provisionada para criar um ponto de extremidade de taxa de transferência provisionada.

Consulte Executar inferência LLM em lote usando ai_query.

Partilhar via

Implantar modelos para inferência e previsão em lote

Use ai_query para inferência de lote

Comentários

Recursos adicionais