Implantar modelos para inferência e previsão em lote
Este artigo descreve o que o Databricks recomenda para inferência em lote e streaming.
Para servir o modelo em tempo real no Azure Databricks, consulte Model serving with Azure Databricks.
Use ai_query para inferência de lote
Importante
Esta funcionalidade está em Pré-visualização Pública.
O Databricks recomenda o uso ai_query
com o Model Serving para inferência em lote.
ai_query
é uma função interna do Databricks SQL que permite consultar o modelo existente que serve pontos de extremidade usando SQL. Foi verificado para processar de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.
Para experimentação rápida, pode ser usado com ai_query
de extremidade de pagamento por token, uma vez que esses pontos de extremidade são pré-configurados em seu espaço de trabalho.
Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte Executar inferência LLM em lote usando ai_query.