Guia de depuração para serviço de modelo

Artigo
01/22/2025

Este artigo demonstra as etapas de depuração para problemas comuns que os usuários podem encontrar ao trabalhar com pontos de extremidade de serviço de modelo. Problemas comuns podem incluir erros que os usuários encontram quando o ponto de extremidade falha ao inicializar ou iniciar, falhas de compilação relacionadas ao contêiner ou problemas durante a operação ou execução do modelo no ponto de extremidade.

Aceder e rever registos

O Databricks recomenda a revisão de logs de compilação para depuração e solução de erros em seu modelo que atende cargas de trabalho. Consulte Monitorar a qualidade do modelo e a integridade do endpoint para obter informações sobre logs e como exibi-los.

Verifique os logs de eventos para o modelo na interface do usuário do espaço de trabalho e verifique se há uma mensagem de compilação de contêiner bem-sucedida. Se você não vir uma mensagem de compilação depois de uma hora, entre em contato com o suporte do Databricks para obter assistência.

Se sua compilação for bem-sucedida, mas você encontrar outros erros, consulte Depuração após a compilação do contêiner ser bem-sucedida. Se sua compilação falhar, consulte Depuração após falha na compilação do contêiner.

Versões do pacote de biblioteca instalado

Em seus logs de compilação, você pode confirmar as versões do pacote que estão instaladas.

Para versões MLflow, se você não tiver uma versão especificada, o Model Serving usará a versão mais recente.
Para uma GPU personalizada, o Model Serving instala as versões recomendadas e de acordo com a documentação pública do cudacuDNN PyTorch e do Tensorflow.

Antes das verificações de validação da implantação do modelo

A Databricks recomenda aplicar as orientações nesta seção antes de servir seu modelo. Os parâmetros a seguir podem detetar problemas antecipadamente, antes de alcançar o endpoint. Consulte o documento Validar a entrada do modelo antes da implementação para verificar a entrada do modelo antes de o implementar.

Testar previsões antes da implantação

Antes de implantar o seu modelo no endpoint de serviço, teste previsões offline com um ambiente virtual usando exemplos de entrada e de mlflow.models.predict. Consulte a documentação do MLflow em sobre testar previsões em para obter orientações mais detalhadas.


input_example = {
                  "messages":
                  [
                    {"content": "How many categories of products do we have? Name them.", "role": "user"}
                  ]
                }

mlflow.models.predict(
   model_uri = logged_chain_info.model_uri,
   input_data = input_example,
)

Validar a entrada do modelo antes da implantação

Os endpoints de serviço de modelo esperam um formato especial de entrada de json para validar que a entrada do modelo funciona em um endpoint de serviço antes de ser implementado. Você pode usar validate_serving_input no MLflow para fazer essa validação.

Segue-se um exemplo de código gerado automaticamente no separador de artefatos da execução, caso o seu modelo seja registado com um exemplo de entrada válido.

from mlflow.models import validate_serving_input

model_uri = 'runs:/<run_id>/<artifact_path>'

serving_payload = """{
 "messages": [
   {
     "content": "How many product categories are there?",
     "role": "user"
   }
 ]
}
"""

# Validate the serving payload works on the model
validate_serving_input(model_uri, serving_payload)

Você também pode testar quaisquer exemplos de entrada em relação ao modelo registrado usando convert_input_example_to_serving_input API para gerar uma entrada de serviço json válida.

from mlflow.models import validate_serving_input
from mlflow.models import convert_input_example_to_serving_input

model_uri = 'runs:/<run_id>/<artifact_path>'

# Define INPUT_EXAMPLE with your own input example to the model
# A valid input example is a data instance suitable for pyfunc prediction

serving_payload = convert_input_example_to_serving_input(INPUT_EXAMPLE)

# Validate the serving payload works on the model
validate_serving_input(model_uri, serving_payload)

Depuração após a compilação do contêiner ser bem-sucedida

Mesmo que o contêiner seja compilado com êxito, pode haver problemas quando você executa o modelo ou durante a operação do próprio ponto de extremidade. As subseções a seguir detalham problemas comuns e como solucionar problemas e depurar

Dependência ausente

Você pode receber um erro como An error occurred while loading the model. No module named <module-name>.. Esse erro pode indicar que uma dependência está faltando no contêiner. Verifique se você denotou corretamente todas as dependências que devem ser incluídas na compilação do contêiner. Preste especial atenção às bibliotecas personalizadas e certifique-se de que os .whl arquivos sejam incluídos como artefatos.

Looping de logs de serviço

Se a compilação do contêiner falhar, verifique os logs de serviço para ver se eles estão fazendo looping quando o ponto de extremidade tenta carregar o modelo. Se você vir esse comportamento, tente as seguintes etapas:

Abra um bloco de anotações e anexe a um cluster multiuso que usa uma versão do Databricks Runtime, não do Databricks Runtime for Machine Learning.
Carregue o modelo usando MLflow e tente depurar a partir daí.

Você também pode carregar o modelo localmente no seu PC e depurar a partir daí. Carregue seu modelo localmente usando o seguinte:

import os
import mlflow

os.environ["MLFLOW_TRACKING_URI"] = "databricks://PROFILE"

ARTIFACT_URI = "model_uri"
if '.' in ARTIFACT_URI:
    mlflow.set_registry_uri('databricks-uc')
local_path = mlflow.artifacts.download_artifacts(ARTIFACT_URI)
print(local_path)

conda env create -f local_path/artifact_path/conda.yaml
conda activate mlflow-env

mlflow.pyfunc.load_model(local_path/artifact_path)

O modelo falha quando as solicitações são enviadas para o ponto de extremidade

Você pode receber um erro como Encountered an unexpected error while evaluating the model. Verify that the input is compatible with the model for inference. quando predict() é chamado no seu modelo.

Há um problema de predict() código na função. O Databricks recomenda que você carregue o modelo do MLflow em um bloco de anotações e o chame. Isso destaca os problemas na predict() função e você pode ver onde a falha está acontecendo dentro do método.

O espaço de trabalho excede a simultaneidade provisionada

Você pode receber um Workspace exceeded provisioned concurrency quota erro.

Você pode aumentar a simultaneidade dependendo da disponibilidade da região. Entre em contato com sua equipe de conta Databricks e forneça seu ID de espaço de trabalho para solicitar um aumento de simultaneidade.

Depuração após falha na compilação do contêiner

Esta seção detalha problemas que podem ocorrer quando sua compilação falha.

`OSError: [Errno 28] No space left on device`

O No space left erro pode ser devido a muitos artefatos grandes sendo registrados ao lado do modelo desnecessariamente. Verifique no MLflow se artefatos estranhos não são registrados ao lado do modelo e tente reimplantar o pacote reduzido.

Problemas do Firewall do Azure com modelos de serviço do Catálogo Unity

Poderá ver o erro: Build could not start due to an internal error. If you are serving a model from UC and Azure Firewall is enabled, this is not supported by default..

Entre em contato com sua equipe de conta Databricks para ajudar a resolver.

Falha de compilação devido à falta de disponibilidade da GPU

Poderá ver um erro: Build could not start due to an internal error - please contact your Databricks representative..