Partilhar via


Criar um monitor usando a interface do usuário do Databricks

Este artigo demonstra a criação de um monitor de dados usando a interface do usuário do Databricks. Você também pode usar a API.

Para acessar a interface do usuário do Databricks, faça o seguinte:

  1. Na barra lateral esquerda do espaço de trabalho, clique Ícone do catálogo para abrir o Catalog Explorer.
  2. Navegue até a tabela que deseja monitorar.
  3. Clique na guia Qualidade .
  4. Clique no botão Introdução .
  5. Em Criar monitor, escolha as opções que deseja configurar o monitor.

Criação de Perfis

No menu Tipo de perfil, selecione o tipo de monitor que deseja criar. Os tipos de perfil são mostrados na tabela.

Tipo de perfil Description
Perfil das séries cronológicas Uma tabela contendo valores medidos ao longo do tempo. Esta tabela inclui uma coluna de carimbo de data/hora.
Perfil de inferência Uma tabela que contém os valores previstos gerados por uma classificação de aprendizado de máquina ou modelo de regressão. Esta tabela inclui um carimbo de data/hora, uma ID do modelo, entradas do modelo (recursos), uma coluna contendo previsões de modelo e colunas opcionais contendo IDs de observação exclusivos e rótulos de verdade básica. Ele também pode conter metadados, como informações demográficas, que não são usados como entrada para o modelo, mas podem ser úteis para investigações de equidade e parcialidade ou outro monitoramento.
Perfil instantâneo Qualquer tabela gerenciada Delta, tabela externa, exibição, exibição materializada ou tabela de streaming.

Se você selecionar TimeSeries ou Inference, parâmetros adicionais são necessários e são descritos nas seções a seguir.

Nota

  • Quando você cria pela primeira vez uma série temporal ou um perfil de inferência, o monitor analisa apenas os dados dos 30 dias anteriores à sua criação. Depois que o monitor é criado, todos os novos dados são processados.
  • Os monitores definidos em visualizações materializadas e tabelas de streaming não suportam processamento incremental.

Gorjeta

Para TimeSeries perfis e Inference perfis, é uma prática recomendada habilitar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está habilitado, apenas os dados recém-anexados são processados, em vez de reprocessar a tabela inteira a cada atualização. Isso torna a execução mais eficiente e reduz os custos à medida que você dimensiona o monitoramento em muitas tabelas.

TimeSeries perfil

Para um TimeSeries perfil, você deve fazer as seguintes seleções:

  • Especifique as granularidades de métrica que determinam como particionar os dados nas janelas ao longo do tempo.
  • Especifique a coluna Timestamp, a coluna na tabela que contém o carimbo de data/hora. O tipo de dados da coluna de carimbo de data/hora deve ser um TIMESTAMP ou um tipo que possa ser convertido em carimbos de data/hora usando a to_timestamp função PySpark.

Inference perfil

Para um Inference perfil, além das granularidades e do carimbo de data/hora, você deve fazer as seguintes seleções:

  • Selecione o Tipo de problema, classificação ou regressão.
  • Especifique a coluna Previsão, a coluna que contém os valores previstos do modelo.
  • Opcionalmente, especifique a coluna Label, a coluna que contém a verdade do terreno para previsões do modelo.
  • Especifique a coluna ID do modelo, a coluna que contém a id do modelo usado para previsão.

Agenda

Para configurar um monitor para ser executado de forma agendada, selecione Atualizar na programação e selecione a frequência e a hora de execução do monitor. Se não quiser que o monitor seja executado automaticamente, selecione Atualizar manualmente. Se você selecionar Atualizar manualmente, poderá atualizar posteriormente as métricas na guia Qualidade .

Notificações

Para configurar notificações por e-mail para um monitor, insira o e-mail a ser notificado e selecione as notificações a serem habilitadas. São suportados até 5 e-mails por tipo de evento de notificação.

Geral

Na seção Geral, você precisa especificar uma configuração necessária e algumas opções de configuração adicionais:

  • Você deve especificar o esquema do Catálogo Unity onde as tabelas métricas criadas pelo monitor são armazenadas. O local deve estar no formato {catalog}. {esquema}.

Você também pode especificar as seguintes configurações:

  • Diretório de ativos. Insira o caminho absoluto para o diretório existente para armazenar ativos de monitoramento, como o painel gerado. Por padrão, os ativos são armazenados no diretório padrão: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se você inserir um local diferente neste campo, os ativos serão criados em "/{table_name}" no diretório especificado. Este diretório pode estar em qualquer lugar no espaço de trabalho. Para monitores destinados a serem compartilhados dentro de uma organização, você pode usar um caminho no diretório "/Shared/".

    Este campo não pode ser deixado em branco.

  • Nome da tabela de linha de base do Catálogo Unity. Nome de uma tabela ou exibição que contém dados da linha de base para comparação. Para obter mais informações sobre tabelas de linha de base, consulte Tabela de entrada primária e tabela de linha de base.

  • Expressões de fatiamento métrico. As expressões de fatiamento permitem definir subconjuntos da tabela a serem monitorados, além da tabela como um todo. Para criar uma expressão de fatiamento, clique em Adicionar expressão e insira a definição de expressão. Por exemplo, a expressão "col_2 > 10" gera duas fatias: uma para col_2 > 10 e outra para col_2 <= 10. Como outro exemplo, a expressão "col_1" gerará uma fatia para cada valor exclusivo em col_1. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos.

  • Métricas personalizadas. As métricas personalizadas aparecem nas tabelas de métricas como qualquer métrica interna. Para obter detalhes, consulte Usar métricas personalizadas com o Databricks Lakehouse Monitoring. Para configurar uma métrica personalizada, clique em Adicionar métrica personalizada.

    • Insira um Nome para a métrica personalizada.
    • Selecione a métrica personalizada Type, uma das Aggregate, Derivedou Drift. Para definições, consulte Tipos de métricas personalizadas.
    • Na lista suspensa em Colunas de entrada, selecione as colunas às quais aplicar a métrica.
    • No campo Tipo de saída, selecione o tipo de dados Spark da métrica.
    • No campo Definição, insira o código SQL que define a métrica personalizada.

Editar configurações do monitor na interface do usuário

Depois de criar um monitor, você pode fazer alterações nas configurações do monitor clicando no botão Editar configuração do monitor na guia Qualidade.

Atualizar e exibir os resultados do monitor na interface do usuário

Para executar o monitor manualmente, clique em Atualizar métricas.

Para obter informações sobre as estatísticas armazenadas em tabelas de métricas de monitor, consulte Monitorar tabelas de métricas. As tabelas métricas são tabelas do Catálogo Unity. Você pode consultá-los em blocos de anotações ou no explorador de consultas SQL e exibi-los no Gerenciador de Catálogos.

Controle o acesso às saídas do monitor

As tabelas métricas e o painel criados por um monitor são de propriedade do usuário que criou o monitor. Você pode usar os privilégios do Catálogo Unity para controlar o acesso a tabelas métricas. Para compartilhar painéis em um espaço de trabalho, clique no botão Compartilhar no canto superior direito do painel.

Excluir um monitor da interface do usuário

Para excluir um monitor da interface do usuário, clique no menu kebab ao lado do botão Atualizar métricas e selecione Excluir monitor.