Wprowadzenie do monitorowania usługi Databricks Lakehouse
W tym artykule opisano monitorowanie usługi Databricks Lakehouse. Obejmuje ona zalety monitorowania danych i zawiera omówienie składników i użycia monitorowania usługi Databricks Lakehouse.
Monitorowanie usługi Databricks Lakehouse umożliwia monitorowanie właściwości statystycznych i jakości danych we wszystkich tabelach na koncie. Można go również użyć do śledzenia wydajności modeli uczenia maszynowego i punktów końcowych obsługujących model, monitorując tabele wnioskowania zawierające dane wejściowe i przewidywania modelu. Diagram przedstawia przepływ danych za pośrednictwem potoków danych i uczenia maszynowego w usłudze Databricks oraz sposób używania monitorowania do ciągłego śledzenia jakości danych i wydajności modelu.
Dlaczego warto używać monitorowania usługi Databricks Lakehouse?
Aby uzyskać przydatne szczegółowe informacje na podstawie danych, musisz mieć pewność co do jakości danych. Monitorowanie danych zapewnia miary ilościowe, które ułatwiają śledzenie i potwierdzanie jakości i spójności danych w czasie. Po wykryciu zmian w dystrybucji danych tabeli lub wydajności odpowiedniego modelu tabele utworzone przez usługę Databricks Lakehouse Monitoring mogą przechwytywać i powiadamiać o zmianie, co może pomóc w zidentyfikowaniu przyczyny.
Monitorowanie usługi Databricks Lakehouse pomaga odpowiedzieć na pytania podobne do następujących:
- Jak wygląda integralność danych i jak zmienia się z upływem czasu? Na przykład jaki jest ułamek wartości null lub zero w bieżących danych i czy został on zwiększony?
- Jak wygląda statystyczny rozkład danych i jak zmienia się w czasie? Na przykład jaki jest 90. percentyl kolumny liczbowej? A co to jest rozkład wartości w kolumnie podzielonej na kategorie i jak różni się od wczoraj?
- Czy istnieje dryf między bieżącymi danymi a znanym punktem odniesienia lub między kolejnymi oknami czasu danych?
- Jak wygląda rozkład statystyczny lub dryf podzestawu lub wycinka danych?
- W jaki sposób dane wejściowe i przewidywania modelu uczenia maszynowego zmieniają się w czasie?
- W jaki sposób wydajność modelu jest trendy w czasie? Czy wersja modelu A działa lepiej niż wersja B?
Ponadto monitorowanie usługi Databricks Lakehouse pozwala kontrolować stopień szczegółowości czasu obserwacji i konfigurować metryki niestandardowe.
Wymagania
Do korzystania z monitorowania usługi Databricks Lakehouse wymagane są następujące elementy:
- Obszar roboczy musi być włączony dla wykazu aparatu Unity i musisz mieć dostęp do usługi Databricks SQL.
- Tylko tabele delty są obsługiwane do monitorowania, a tabela musi być jednym z następujących typów tabel: tabel zarządzanych, tabel zewnętrznych, widoków, zmaterializowanych widoków lub tabel przesyłania strumieniowego.
- Monitory utworzone za pośrednictwem zmaterializowanych widoków i tabel przesyłania strumieniowego nie obsługują przetwarzania przyrostowego.
- Nie wszystkie regiony są obsługiwane. Aby uzyskać pomoc regionalną, zobacz kolumnę Przetwarzanie bezserwerowe dla notesów i przepływów pracy w tabeli Funkcje z ograniczoną dostępnością regionalną.
Uwaga
Monitorowanie usługi Databricks Lakehouse używa bezserwerowych obliczeń dla zadań. Aby uzyskać informacje na temat śledzenia wydatków monitorowania usługi Lakehouse, zobacz Wyświetlanie wydatków monitorowania usługi Lakehouse.
Jak działa monitorowanie usługi Lakehouse w usłudze Databricks
Aby monitorować tabelę w usłudze Databricks, należy utworzyć monitor dołączony do tabeli. Aby monitorować wydajność modelu uczenia maszynowego, należy dołączyć monitor do tabeli wnioskowania zawierającej dane wejściowe modelu i odpowiadające im przewidywania.
Monitorowanie usługi Databricks Lakehouse zapewnia następujące typy analiz: szeregi czasowe, migawki i wnioskowanie.
Typ profilu | opis |
---|---|
Szeregi czasowe | Służy do tabel zawierających zestaw danych szeregów czasowych na podstawie kolumny znacznika czasu. Monitorowanie oblicza metryki jakości danych w oknach czasowych szeregów czasowych. |
Wnioskowanie | Służy do tabel zawierających dziennik żądań dla modelu. Każdy wiersz jest żądaniem z kolumnami znacznika czasu, danymi wejściowymi modelu, odpowiadającymi im przewidywania i (opcjonalnie) etykietą podstawy prawdy. Monitorowanie porównuje metryki wydajności modelu i jakości danych w oknach opartych na czasie dziennika żądań. |
Snapshot | Użyj dla wszystkich innych typów tabel. Monitorowanie oblicza metryki jakości danych dla wszystkich danych w tabeli. Kompletna tabela jest przetwarzana przy każdym odświeżeniu. |
W tej sekcji krótko opisano tabele wejściowe używane przez usługę Databricks Lakehouse Monitoring i tabele metryk, które tworzy. Diagram przedstawia relację między tabelami wejściowymi, tabelami metryk, monitorem i pulpitem nawigacyjnym.
Tabela podstawowa i tabela bazowa
Oprócz tabeli, która ma być monitorowana, nazywana "tabelą podstawową", opcjonalnie można określić tabelę odniesienia do użycia jako odwołanie do pomiaru dryfu lub zmiany wartości w czasie. Tabela linii bazowej jest przydatna, gdy masz próbkę tego, jak powinny wyglądać dane. Chodzi o to, że dryf jest następnie obliczany względem oczekiwanych wartości i dystrybucji danych.
Tabela odniesienia powinna zawierać zestaw danych, który odzwierciedla oczekiwaną jakość danych wejściowych, w zakresie rozkładów statystycznych, poszczególnych rozkładów kolumn, brakujących wartości i innych cech. Powinna być zgodna ze schematem monitorowanej tabeli. Wyjątkiem jest kolumna znacznika czasu dla tabel używanych z szeregami czasowymi lub profilami wnioskowania. Jeśli w tabeli podstawowej lub tabeli bazowej brakuje kolumn, monitorowanie używa heurystyki najwydajniejszego nakładu pracy w celu obliczenia metryk wyjściowych.
W przypadku monitorów korzystających z profilu migawki tabela odniesienia powinna zawierać migawkę danych, w których rozkład reprezentuje akceptowalny standard jakości. Na przykład w przypadku danych rozkładu klasy można ustawić punkt odniesienia na poprzednią klasę, w której klasy zostały równomiernie rozłożone.
W przypadku monitorów korzystających z profilu szeregów czasowych tabela odniesienia powinna zawierać dane reprezentujące przedziały czasu, w których rozkłady danych reprezentują akceptowalny standard jakości. Na przykład w przypadku danych pogodowych można ustawić punkt odniesienia na tydzień, miesiąc lub rok, w którym temperatura była zbliżona do oczekiwanych normalnych temperatur.
W przypadku monitorów korzystających z profilu wnioskowania dobrym wyborem dla punktu odniesienia są dane używane do trenowania lub weryfikowania monitorowanego modelu. W ten sposób użytkownicy mogą otrzymywać alerty, gdy dane dryfowały względem tego, co model został wytrenowany i zweryfikowany. Ta tabela powinna zawierać te same kolumny funkcji co tabela podstawowa, a ponadto powinny mieć taką samą model_id_col
wartość, która została określona dla tabeli podstawowej InferenceLog, aby dane były agregowane spójnie. W idealnym przypadku zestaw testów lub weryfikacji używany do oceny modelu powinien służyć do zapewnienia porównywalnych metryk jakości modelu.
Tabele metryk i pulpit nawigacyjny
Monitor tabeli tworzy dwie tabele metryk i pulpit nawigacyjny. Wartości metryk są obliczane dla całej tabeli, a dla okien czasowych i podzestawów danych (lub "wycinków") określonych podczas tworzenia monitora. Ponadto w przypadku analizy wnioskowania metryki są obliczane dla każdego identyfikatora modelu. Aby uzyskać więcej informacji na temat tabel metryk, zobacz Monitorowanie tabel metryk.
- Tabela metryk profilu zawiera statystyki podsumowania. Zobacz schemat tabeli metryk profilu.
- Tabela metryk dryfu zawiera statystyki związane z dryfem danych w czasie. Jeśli zostanie podana tabela odniesienia, dryf jest również monitorowany względem wartości punktu odniesienia. Zobacz schemat tabeli metryk dryfu.
Tabele metryk to tabele delty i są przechowywane w określonym schemacie wykazu aparatu Unity. Tabele te można wyświetlać przy użyciu interfejsu użytkownika usługi Databricks, wykonywać zapytania względem nich przy użyciu języka SQL usługi Databricks oraz tworzyć pulpity nawigacyjne i alerty na ich podstawie.
Dla każdego monitora usługa Databricks automatycznie tworzy pulpit nawigacyjny, który ułatwia wizualizowanie i prezentowanie wyników monitorowania. Pulpit nawigacyjny można w pełni dostosowywać, podobnie jak każdy inny starszy pulpit nawigacyjny.
Rozpoczynanie korzystania z monitorowania usługi Lakehouse w usłudze Databricks
Zobacz następujące artykuły, aby rozpocząć pracę:
- Tworzenie monitora przy użyciu interfejsu użytkownika usługi Databricks.
- Tworzenie monitora przy użyciu interfejsu API.
- Omówienie tabel metryk monitorowania.
- Praca z pulpitem nawigacyjnym monitora.
- Tworzenie alertów SQL na podstawie monitora.
- Tworzenie metryk niestandardowych.
- Monitorowanie modelu obsługującego punkty końcowe.
- Monitorowanie sprawiedliwości i stronniczości dla modeli klasyfikacji.
- Zapoznaj się z materiałami referencyjnymi dotyczącymi interfejsu API monitorowania usługi Databricks Lakehouse.
- Przykładowe notesy.