Criar um monitor usando a interface do usuário do Databricks
Este artigo demonstra a criação de um monitor de dados usando a interface do usuário do Databricks. Você também pode usar a API.
Para acessar a interface do usuário do Databricks, faça o seguinte:
- Na barra lateral esquerda do espaço de trabalho, clique no para abrir o Catalog Explorer.
- Navegue até a tabela que você deseja monitorar.
- Clique na guia Qualidade.
- Clique no botão Introdução.
- Em Criar monitor, escolha as opções que você deseja configurar o monitor.
Criação de perfil
No menu Tipo de perfil, selecione o tipo de monitor que você deseja criar. Os tipos de perfil são mostrados na tabela.
Tipo de perfil | Descrição |
---|---|
Perfil de série temporal | Uma tabela que contém valores medidos ao longo do tempo. Esta tabela inclui uma coluna de carimbo de data/hora. |
Perfil de inferência | Uma tabela que contém a saída de valores previstos por um modelo de regressão ou classificação de aprendizado de máquina. Esta tabela inclui um carimbo de data/hora, uma ID de modelo, entradas de modelo (recursos), uma coluna que contém previsões de modelo e colunas opcionais que contêm IDs de observação exclusivas e rótulos de verdade básica. Também pode conter metadados, como informações demográficas, que não são usados como entrada para o modelo, mas podem ser úteis para investigações de imparcialidade e viés ou outros monitoramentos. |
Perfil de instantâneo | Qualquer tabela gerenciada delta, tabela externa, exibição, exibição materializada ou tabela de streaming. |
Se você selecionar TimeSeries
ou Inference
, parâmetros adicionais serão necessários e serão descritos nas seções a seguir.
Observação
- Quando você cria pela primeira vez um perfil de série temporal ou inferência, o monitor analisa apenas os dados dos 30 dias anteriores à sua criação. Depois que o monitor é criado, todos os novos dados são processados.
- Monitores definidos em exibições materializadas e tabelas de streaming não dão suporte ao processamento incremental.
Dica
Para os perfis TimeSeries
e Inference
, é prática recomendada habilitar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está habilitado, apenas os dados recém-acrescentados são processados, em vez de reprocessar a tabela inteira a cada atualização. Isso torna a execução mais eficiente e reduz os custos à medida que você dimensiona o monitoramento em várias tabelas.
Perfil de TimeSeries
Para um TimeSeries
perfil, você deve fazer as seguintes seleções:
- Especifique as granularidades de métrica que determinam como particionar os dados em janelas ao longo do tempo.
- Especifique a coluna Carimbo de data/hora, a coluna na tabela que contém o carimbo de data/hora. O tipo de dados da coluna de carimbo de data/hora deve ser
TIMESTAMP
ou um tipo que possa ser convertido em carimbos de data/hora usando ato_timestamp
função PySpark.
Inference
perfil
Para um Inference
perfil, além das granularidades e do carimbo de data/hora, você deve fazer as seguintes seleções:
- Selecione o Tipo de problema, classificação ou regressão.
- Especifique a coluna Previsão, a coluna que contém os valores previstos do modelo.
- Opcionalmente, especifique a coluna Rótulo, a coluna que contém a verdade básica para previsões de modelo.
- Especifique a coluna ID do Modelo, a coluna que contém a ID do modelo usado para previsão.
Agenda
Para configurar um monitor a ser executado em uma base agendada, selecione Atualizar no agendamento e selecione a frequência e a hora para o monitor ser executado. Se você não quiser que o monitor seja executado automaticamente, selecione Atualizar manualmente. Se você selecionar Atualizar manualmente, poderá atualizar as métricas posteriormente na guia Qualidade.
Notificações
Para configurar notificações por email para um monitor, insira o email a ser notificado e selecione as notificações a serem habilitadas. São suportados até 5 emails por tipo de evento de notificação.
Geral
Na seção Geral, você precisa especificar uma configuração necessária e algumas opções de configuração adicionais:
- Você deve especificar o esquema do Catálogo do Unity em que as tabelas de métrica criadas pelo monitor são armazenadas. O local deve estar no formato {catalog}. {schema}.
Você também pode especificar as seguintes configurações:
Diretório de ativos. Insira o caminho absoluto para o diretório existente para armazenar ativos de monitoramento, como o painel gerado. Por padrão, os ativos são armazenados no diretório padrão: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se você inserir um local diferente nesse campo, os ativos serão criados em "/{table_name}" no diretório que você especificar. Esse diretório pode estar em qualquer lugar no workspace. Para monitores destinados a serem compartilhados em uma organização, você pode usar um caminho no diretório "/Compartilhado/".
Esse campo não pode ficar vazio.
Nome da tabela de linha de base do Catálogo do Unity. Nome de uma tabela ou exibição que contém dados de linha de base para comparação. Para obter mais informações sobre tabelas de linha de base, consulte Tabela de entrada primária e tabela de linha de base.
Expressões de divisão de métrica. Expressões de divisão permitem definir subconjuntos da tabela a serem monitorados além da tabela como um todo. Para criar uma expressão de divisão, clique em Adicionar expressão e insira a definição de expressão. Por exemplo, a expressão
"col_2 > 10"
gera duas fatias: uma paracol_2 > 10
e outra paracol_2 <= 10
. Como outro exemplo, a expressão"col_1"
gerará uma fatia para cada valor exclusivo emcol_1
. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos.Métricas personalizadas. As métricas personalizadas aparecem nas tabelas de métricas, como qualquer métrica interna. Para obter detalhes, consulte Usar métricas personalizadas com o Monitoramento do Databricks Lakehouse. Para configurar uma métrica personalizada, clique em Adicionar métrica personalizada.
- Insira um Nome para a métrica personalizada.
- Selecione a métrica personalizada Tipo, uma de
Aggregate
,Derived
ouDrift
. Para obter definições, consulte Tipos de métricas personalizadas. - Na lista suspensa em Colunas de entrada, selecione as colunas às quais aplicar a métrica.
- No campo Tipo de saída, selecione o tipo de dados Spark da métrica.
- No campo Definição, insira o código SQL que define a métrica personalizada.
Editar as configurações do monitor na interface do usuário
Depois de criar um monitor, você pode fazer alterações nas configurações do monitor clicando no botão Editar configuração do monitor na guia Qualidade.
Atualizar e exibir os resultados do monitor na interface do usuário
Para executar o monitor manualmente, clique em Atualizar métricas.
Para obter informações sobre as estatísticas armazenadas em tabelas de métricas de monitor, consulte Monitorar tabelas de métricas. Tabelas de métricas são tabelas do Catálogo do Unity. Você pode consultá-las em notebooks ou no gerenciador de consultas SQL e exibi-las no Catalog Explorer.
Controlar o acesso para monitorar saídas
As tabelas de métricas e dashboard criadas por um monitor pertencem ao usuário que criou o monitor. Você pode usar privilégios do Catálogo do Unity para controlar o acesso a tabelas de métricas. Para compartilhar painéis em um workspace, clique no botão Compartilhar no lado superior direito do dashboard.
Excluir um monitor da interface do usuário
Para excluir um monitor da interface do usuário, clique no menu kebab ao lado do botão Atualizar métricas e selecione Excluir monitor.