Implantar modelos para inferência e previsão em lote
Este artigo descreve o que o Databricks recomenda para inferência em lote.
Para implementação de modelos em tempo real no Azure Databricks, consulte Implantar modelos usando o Mosaic AI Model Serving.
Use ai_query para inferência de lote
Importante
Esta funcionalidade está em Pré-visualização Pública.
O Databricks recomenda o uso ai_query
com o Model Serving para inferência em lote.
ai_query
é uma função interna do Databricks SQL que permite consultar o modelo existente que serve pontos de extremidade usando SQL. Foi verificado para processar de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.
Para experimentação rápida, ai_query
pode ser usado para inferência LLM em lote com pontos de extremidade de pagamento por token, que são pré-configurados em seu espaço de trabalho.
Quando você estiver pronto para executar a inferência LLM em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido.
- Consulte APIs do Modelo de Base de taxa de transferência provisionada para criar um ponto de extremidade de taxa de transferência provisionada.
- Consulte Executar inferência LLM em lote usando ai_query.
Para um exemplo de inferência em lote de um modelo de ML tradicional, consulte o seguinte notebook: