Wprowadzenie do monitorowania usługi Databricks Lakehouse

Artykuł
01/23/2025

W tym artykule opisano monitorowanie usługi Databricks Lakehouse. Obejmuje ona zalety monitorowania danych i zawiera omówienie składników i użycia monitorowania usługi Databricks Lakehouse.

Monitorowanie usługi Databricks Lakehouse umożliwia monitorowanie właściwości statystycznych i jakości danych we wszystkich tabelach na koncie. Można go również użyć do śledzenia wydajności modeli uczenia maszynowego i punktów końcowych obsługujących model, monitorując tabele wnioskowania zawierające dane wejściowe i przewidywania modelu. Diagram przedstawia przepływ danych za pośrednictwem potoków danych i uczenia maszynowego w usłudze Databricks oraz sposób używania monitorowania do ciągłego śledzenia jakości danych i wydajności modelu.

Omówienie monitorowania usługi Databricks Lakehouse

Dlaczego warto używać monitorowania usługi Databricks Lakehouse?

Aby uzyskać przydatne szczegółowe informacje na podstawie danych, musisz mieć pewność co do jakości danych. Monitorowanie danych zapewnia miary ilościowe, które ułatwiają śledzenie i potwierdzanie jakości i spójności danych w czasie. Po wykryciu zmian w dystrybucji danych tabeli lub wydajności odpowiedniego modelu tabele utworzone przez usługę Databricks Lakehouse Monitoring mogą przechwytywać i powiadamiać o zmianie, co może pomóc w zidentyfikowaniu przyczyny.

Monitorowanie usługi Databricks Lakehouse pomaga odpowiedzieć na pytania podobne do następujących:

Jak wygląda integralność danych i jak zmienia się z upływem czasu? Na przykład jaki jest ułamek wartości null lub zero w bieżących danych i czy został on zwiększony?
Jak wygląda statystyczny rozkład danych i jak zmienia się w czasie? Na przykład jaki jest 90. percentyl kolumny liczbowej? A co to jest rozkład wartości w kolumnie podzielonej na kategorie i jak różni się od wczoraj?
Czy istnieje dryf między bieżącymi danymi a znanym punktem odniesienia lub między kolejnymi oknami czasu danych?
Jak wygląda rozkład statystyczny lub dryf podzestawu lub wycinka danych?
W jaki sposób dane wejściowe i przewidywania modelu uczenia maszynowego zmieniają się w czasie?
W jaki sposób wydajność modelu jest trendy w czasie? Czy wersja modelu A działa lepiej niż wersja B?

Ponadto monitorowanie Databricks Lakehouse pozwala kontrolować stopień szczegółowości obserwacji i konfigurować metryki niestandardowe.

Wymagania

Do korzystania z monitorowania usługi Databricks Lakehouse wymagane są następujące elementy:

Twój obszar roboczy musi być włączony dla Unity Catalog i musisz mieć dostęp do Databricks SQL.
Tylko Tabele Delta są obsługiwane do monitorowania, a tabela musi być jednym tym typem tabeli: tabele zarządzane, tabele zewnętrzne, widoki, zmaterializowane widoki lub tabele przesyłania strumieniowego.
Monitory utworzone na podstawie zmaterializowanych widoków i tabel przesyłania strumieniowego nie obsługują przetwarzania incrementalnego.
Nie wszystkie regiony są obsługiwane. Aby uzyskać pomoc regionalną, zobacz kolumnę Lakehouse monitoring w tabeli sztucznej inteligencji i uczenia maszynowego.

Uwaga

Monitorowanie usługi Databricks Lakehouse używa bezserwerowych obliczeń dla zadań. Aby uzyskać informacje na temat śledzenia wydatków monitorowania usługi Lakehouse, zobacz Wyświetlanie wydatków monitorowania usługi Lakehouse.

Jak działa monitorowanie usługi Lakehouse w usłudze Databricks

Aby monitorować tabelę w usłudze Databricks, należy utworzyć monitor dołączony do tabeli. Aby monitorować wydajność modelu uczenia maszynowego, należy dołączyć monitor do tabeli wnioskowania zawierającej dane wejściowe modelu i odpowiadające im przewidywania.

Monitorowanie usługi Databricks Lakehouse zapewnia następujące typy analiz: szeregi czasowe, migawki i wnioskowanie.

Typ profilu	opis
Szeregi czasowe	Służy do tabel zawierających zestaw danych szeregów czasowych na podstawie kolumny znacznika czasu. Monitorowanie oblicza metryki jakości danych w oknach czasowych szeregów czasowych.
Wnioskowanie	Służy do tabel zawierających dziennik żądań dla modelu. Każdy wiersz jest żądaniem i zawiera kolumny ze znacznikiem czasu, wejściami do modelu, odpowiadającym przewidywaniem i (opcjonalnie) etykietą rzeczywistości. Monitorowanie porównuje metryki wydajności modelu i jakości danych w oknach opartych na czasie dziennika żądań.
Snapshot	Użyj dla wszystkich innych typów tabel. Monitorowanie oblicza metryki jakości danych dla wszystkich danych w tabeli. Kompletna tabela jest przetwarzana przy każdym odświeżeniu.

W tej sekcji krótko opisano tabele wejściowe używane przez usługę Databricks Lakehouse Monitoring i tabele metryk, które tworzy. Diagram przedstawia relację między tabelami wejściowymi, tabelami metryk, monitorem i pulpitem nawigacyjnym.

Diagram monitorowania usługi Databricks Lakehouse

tabela podstawowa i tabela bazowa

Oprócz tabeli, która ma być monitorowana, nazywana "tabelą podstawową", opcjonalnie można określić tabelę odniesienia do użycia jako odwołanie do pomiaru dryfu lub zmiany wartości w czasie. Tabela linii bazowej jest przydatna, gdy masz próbkę tego, jak powinny wyglądać dane. Chodzi o to, że dryf jest następnie obliczany względem oczekiwanych wartości i dystrybucji danych.

Tabela odniesienia powinna zawierać zestaw danych, który odzwierciedla oczekiwaną jakość danych wejściowych, w zakresie rozkładów statystycznych, poszczególnych rozkładów kolumn, brakujących wartości i innych cech. Powinna być zgodna ze schematem monitorowanej tabeli. Wyjątkiem jest kolumna znacznika czasu dla tabel używanych z szeregami czasowymi lub profilami wnioskowania. Jeśli w tabeli podstawowej lub tabeli bazowej brakuje kolumn, monitorowanie używa heurystyki najwydajniejszego nakładu pracy w celu obliczenia metryk wyjściowych.

W przypadku monitorów korzystających z profilu migawki tabela odniesienia powinna zawierać migawkę danych, w których rozkład reprezentuje akceptowalny standard jakości. Na przykład w przypadku danych rozkładu klasy można ustawić punkt odniesienia na poprzednią klasę, w której klasy zostały równomiernie rozłożone.

W przypadku monitorów korzystających z profilu szeregów czasowych tabela odniesienia powinna zawierać dane reprezentujące przedziały czasu, w których rozkłady danych reprezentują akceptowalny standard jakości. Na przykład w przypadku danych pogodowych można ustawić punkt odniesienia na tydzień, miesiąc lub rok, w którym temperatura była zbliżona do oczekiwanych normalnych temperatur.

W przypadku monitorów korzystających z profilu wnioskowania dobrym wyborem dla punktu odniesienia są dane używane do trenowania lub weryfikowania monitorowanego modelu. W ten sposób użytkownicy mogą otrzymywać alerty, gdy dane dryfowały względem tego, co model został wytrenowany i zweryfikowany. Ta tabela powinna zawierać te same kolumny funkcji co tabela podstawowa, a ponadto powinny mieć te same model_id_col, które zostały określone dla tabeli podstawowej InferenceLog, aby dane były agregowane spójnie. W idealnym przypadku zestaw testów lub weryfikacji używany do oceny modelu powinien służyć do zapewnienia porównywalnych metryk jakości modelu.

Tabele metryk i pulpit nawigacyjny

Monitor tabelowy tworzy dwie tabele metryk i pulpit nawigacyjny. Wartości metryk są obliczane dla całej tabeli, a dla okien czasowych i podzestawów danych (lub "wycinków") określonych podczas tworzenia monitora. Ponadto w przypadku analizy wnioskowania metryki są obliczane dla każdego identyfikatora modelu. Aby uzyskać więcej informacji na temat tabel metryk, zobacz Monitor tabel metryk.

Tabela metryk profilu zawiera statystyki podsumowania. Zobacz schemat tabeli metryk profilu .
Tabela metryk dryfu zawiera statystyki związane z dryfem danych w czasie. Jeśli zostanie podana tabela odniesienia, dryf jest również monitorowany względem wartości punktu odniesienia. Zobacz schemat tabeli metryk dryfu .

Tabele metryk to tabele Delta i są przechowywane w określonym schemacie Unity Catalog. Tabele te można wyświetlać przy użyciu interfejsu użytkownika usługi Databricks, wykonywać zapytania względem nich przy użyciu języka SQL usługi Databricks oraz tworzyć pulpity nawigacyjne i alerty na ich podstawie.

Dla każdego monitora usługa Databricks automatycznie tworzy pulpit nawigacyjny, który ułatwia wizualizowanie i prezentowanie wyników monitorowania. Pulpit nawigacyjny można w pełni dostosowywać. Zobacz Pulpity nawigacyjne.

Rozpoczynanie korzystania z monitorowania usługi Lakehouse w usłudze Databricks

Zobacz następujące artykuły, aby rozpocząć pracę:

Tworzenie monitora przy użyciu interfejsu użytkownika usługi Databricks.
Tworzenie monitora przy użyciu interfejsu API.
Omówienie tabel metryk monitora.
Praca z pulpitem nawigacyjnym monitora.
Tworzenie alertów SQL na podstawie monitora.
Tworzenie metryk niestandardowych.
Monitorowanie modelu niestandardowego obsługującego punkty końcowe.
Monitorowanie sprawiedliwości i stronniczości dla modeli klasyfikacji.
Zapoznaj się z materiałami referencyjnymi dotyczącymi interfejsu API monitorowania usługi Databricks Lakehouse.
Przykładowe notesy.

Udostępnij za pośrednictwem