Criar um monitor usando a interface do usuário do Databricks
Este artigo demonstra a criação de um monitor de dados usando a interface do usuário do Databricks. Você também pode usar a API.
Para acessar a interface do usuário do Databricks, faça o seguinte:
- Na barra lateral esquerda do espaço de trabalho, clique para abrir o Catalog Explorer.
- Navegue até a tabela que deseja monitorar.
- Clique na guia Qualidade .
- Clique no botão Introdução .
- Em Criar monitor, escolha as opções que deseja configurar o monitor.
Criação de Perfis
No menu Tipo de perfil, selecione o tipo de monitor que deseja criar. Os tipos de perfil são mostrados na tabela.
Tipo de perfil | Description |
---|---|
Perfil das séries cronológicas | Uma tabela contendo valores medidos ao longo do tempo. Esta tabela inclui uma coluna de carimbo de data/hora. |
Perfil de inferência | Uma tabela que contém os valores previstos gerados por uma classificação de aprendizado de máquina ou modelo de regressão. Esta tabela inclui um carimbo de data/hora, uma ID do modelo, entradas do modelo (recursos), uma coluna contendo previsões de modelo e colunas opcionais contendo IDs de observação exclusivos e rótulos de verdade básica. Ele também pode conter metadados, como informações demográficas, que não são usados como entrada para o modelo, mas podem ser úteis para investigações de equidade e parcialidade ou outro monitoramento. |
Perfil instantâneo | Qualquer tabela gerenciada Delta, tabela externa, exibição, exibição materializada ou tabela de streaming. |
Se você selecionar TimeSeries
ou Inference
, parâmetros adicionais são necessários e são descritos nas seções a seguir.
Nota
- Quando você cria pela primeira vez uma série temporal ou um perfil de inferência, o monitor analisa apenas os dados dos 30 dias anteriores à sua criação. Depois que o monitor é criado, todos os novos dados são processados.
- Os monitores definidos em visualizações materializadas e tabelas de streaming não suportam processamento incremental.
Gorjeta
Para TimeSeries
perfis e Inference
perfis, é uma prática recomendada habilitar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está habilitado, apenas os dados recém-anexados são processados, em vez de reprocessar a tabela inteira a cada atualização. Isso torna a execução mais eficiente e reduz os custos à medida que você dimensiona o monitoramento em muitas tabelas.
TimeSeries
perfil
Para um TimeSeries
perfil, você deve fazer as seguintes seleções:
- Especifique as granularidades de métrica que determinam como particionar os dados nas janelas ao longo do tempo.
- Especifique a coluna Timestamp, a coluna na tabela que contém o carimbo de data/hora. O tipo de dados da coluna de carimbo de data/hora deve ser um
TIMESTAMP
ou um tipo que possa ser convertido em carimbos de data/hora usando ato_timestamp
função PySpark.
Inference
perfil
Para um Inference
perfil, além das granularidades e do carimbo de data/hora, você deve fazer as seguintes seleções:
- Selecione o Tipo de problema, classificação ou regressão.
- Especifique a coluna Previsão, a coluna que contém os valores previstos do modelo.
- Opcionalmente, especifique a coluna Label, a coluna que contém a verdade do terreno para previsões do modelo.
- Especifique a coluna ID do modelo, a coluna que contém a id do modelo usado para previsão.
Agenda
Para configurar um monitor para ser executado de forma agendada, selecione Atualizar na programação e selecione a frequência e a hora de execução do monitor. Se não quiser que o monitor seja executado automaticamente, selecione Atualizar manualmente. Se você selecionar Atualizar manualmente, poderá atualizar posteriormente as métricas na guia Qualidade .
Notificações
Para configurar notificações por e-mail para um monitor, insira o e-mail a ser notificado e selecione as notificações a serem habilitadas. São suportados até 5 e-mails por tipo de evento de notificação.
Geral
Na seção Geral, você precisa especificar uma configuração necessária e algumas opções de configuração adicionais:
- Você deve especificar o esquema do Catálogo Unity onde as tabelas métricas criadas pelo monitor são armazenadas. O local deve estar no formato {catalog}. {esquema}.
Você também pode especificar as seguintes configurações:
Diretório de ativos. Insira o caminho absoluto para o diretório existente para armazenar ativos de monitoramento, como o painel gerado. Por padrão, os ativos são armazenados no diretório padrão: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se você inserir um local diferente neste campo, os ativos serão criados em "/{table_name}" no diretório especificado. Este diretório pode estar em qualquer lugar no espaço de trabalho. Para monitores destinados a serem compartilhados dentro de uma organização, você pode usar um caminho no diretório "/Shared/".
Este campo não pode ser deixado em branco.
Nome da tabela de linha de base do Catálogo Unity. Nome de uma tabela ou exibição que contém dados da linha de base para comparação. Para obter mais informações sobre tabelas de linha de base, consulte Tabela de entrada primária e tabela de linha de base.
Expressões de fatiamento métrico. As expressões de fatiamento permitem definir subconjuntos da tabela a serem monitorados, além da tabela como um todo. Para criar uma expressão de fatiamento, clique em Adicionar expressão e insira a definição de expressão. Por exemplo, a expressão
"col_2 > 10"
gera duas fatias: uma paracol_2 > 10
e outra paracol_2 <= 10
. Como outro exemplo, a expressão"col_1"
gerará uma fatia para cada valor exclusivo emcol_1
. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos.Métricas personalizadas. As métricas personalizadas aparecem nas tabelas de métricas como qualquer métrica interna. Para obter detalhes, consulte Usar métricas personalizadas com o Databricks Lakehouse Monitoring. Para configurar uma métrica personalizada, clique em Adicionar métrica personalizada.
- Insira um Nome para a métrica personalizada.
- Selecione a métrica personalizada Type, uma das
Aggregate
,Derived
ouDrift
. Para definições, consulte Tipos de métricas personalizadas. - Na lista suspensa em Colunas de entrada, selecione as colunas às quais aplicar a métrica.
- No campo Tipo de saída, selecione o tipo de dados Spark da métrica.
- No campo Definição, insira o código SQL que define a métrica personalizada.
Editar configurações do monitor na interface do usuário
Depois de criar um monitor, você pode fazer alterações nas configurações do monitor clicando no botão Editar configuração do monitor na guia Qualidade.
Atualizar e exibir os resultados do monitor na interface do usuário
Para executar o monitor manualmente, clique em Atualizar métricas.
Para obter informações sobre as estatísticas armazenadas em tabelas de métricas de monitor, consulte Monitorar tabelas de métricas. As tabelas métricas são tabelas do Catálogo Unity. Você pode consultá-los em blocos de anotações ou no explorador de consultas SQL e exibi-los no Gerenciador de Catálogos.
Controle o acesso às saídas do monitor
As tabelas métricas e o painel criados por um monitor são de propriedade do usuário que criou o monitor. Você pode usar os privilégios do Catálogo Unity para controlar o acesso a tabelas métricas. Para compartilhar painéis em um espaço de trabalho, clique no botão Compartilhar no canto superior direito do painel.
Excluir um monitor da interface do usuário
Para excluir um monitor da interface do usuário, clique no menu kebab ao lado do botão Atualizar métricas e selecione Excluir monitor.