Partilhar via


Implantar modelos para inferência e previsão em lote

Este artigo descreve o que o Databricks recomenda para inferência em lote.

Para implementação de modelos em tempo real no Azure Databricks, consulte Implantar modelos usando o Mosaic AI Model Serving.

Use ai_query para inferência de lote

Importante

Esta funcionalidade está em Pré-visualização Pública.

O Databricks recomenda o uso ai_query com o Model Serving para inferência em lote. ai_query é uma função interna do Databricks SQL que permite consultar o modelo existente que serve pontos de extremidade usando SQL. Foi verificado para processar de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.

Para experimentação rápida, ai_query pode ser usado para inferência LLM em lote com pontos de extremidade de pagamento por token, que são pré-configurados em seu espaço de trabalho.

Quando você estiver pronto para executar a inferência LLM em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido.

Para um exemplo de inferência em lote de um modelo de ML tradicional, consulte o seguinte notebook:

Inferência em lote usando BERT para bloco de notas de reconhecimento de entidades nomeadas

Obter caderno