Udostępnij za pośrednictwem


Tworzenie monitora przy użyciu interfejsu użytkownika usługi Databricks

W tym artykule przedstawiono tworzenie monitora danych przy użyciu interfejsu użytkownika usługi Databricks. Możesz również użyć interfejsu API.

Aby uzyskać dostęp do interfejsu użytkownika usługi Databricks, wykonaj następujące czynności:

  1. Na pasku bocznym po lewej stronie obszaru roboczego kliknij ikonę katalogu , aby otworzyć Catalog Explorer.
  2. Przejdź do tabeli, którą chcesz monitorować.
  3. Kliknij kartę Jakość .
  4. Kliknij przycisk Rozpocznij pracę.
  5. W Utwórz monitorwybierz opcje, które chcesz ustawić dla monitora.

Profilowanie

W menu Typ profilu wybierz typ monitora, który chcesz utworzyć. Typy profilów są wyświetlane w tabeli.

Typ profilu opis
Profil szeregów czasowych Tabela zawierająca wartości mierzone w czasie. Ta tabela zawiera kolumnę znacznika czasu.
Profil wnioskowania Tabela zawierająca przewidywane wartości wyjściowe według klasyfikacji lub modelu regresji uczenia maszynowego. Ta tabela zawiera sygnaturę czasową, identyfikator modelu, dane wejściowe modelu (funkcje), kolumnę zawierającą przewidywania modelu oraz opcjonalne kolumny zawierające unikatowe identyfikatory obserwacji i etykiety podstaw prawdy. Może również zawierać metadane, takie jak informacje demograficzne, które nie są używane jako dane wejściowe do modelu, ale mogą być przydatne w przypadku badań uczciwości i stronniczości lub innych monitorowania.
Profil migawki Dowolna tabela zarządzana przez Delta, tabela zewnętrzna, widok, zmaterializowany widok lub tabela strumieniowa.

W przypadku wybrania TimeSeries lub Inferencewymagane są dodatkowe parametry i zostały opisane w poniższych sekcjach.

Uwaga

  • Podczas pierwszego tworzenia szeregu czasowego lub profilu wnioskowania monitor analizuje tylko dane z 30 dni przed jego utworzeniem. Po utworzeniu monitora wszystkie nowe dane są przetwarzane.
  • Monitory zdefiniowane na zmaterializowanych widokach i tabelach strumieniowych nie obsługują przetwarzania przyrostowego.

Napiwek

W przypadku profilów TimeSeries i Inference najlepszym rozwiązaniem jest włączenie strumienia danych zmian (CDF) w tabeli. Po włączeniu usługi CDF przetwarzane są tylko nowo dołączone dane, a nie ponowne przetwarzanie całej tabeli przy każdym odświeżeniu. Dzięki temu procesy są bardziej wydajne i zmniejszają koszty, w miarę jak skalujesz monitorowanie w wielu tabelach.

TimeSeries profil

TimeSeries W przypadku profilu należy wybrać następujące opcje:

  • Określ stopień szczegółowości metryk , które określają sposób partycjonowania danych w oknach czasowych.
  • Określ kolumnę Sygnatura czasowa, kolumnę w tabeli zawierającej znacznik czasu. Typ danych kolumny sygnatury czasowej musi być TIMESTAMP lub typ, który można przekonwertować na znaczniki czasu przy użyciu funkcji to_timestampPySpark.

Inference profil

Inference W przypadku profilu oprócz szczegółowości i znacznika czasu należy wybrać następujące opcje:

  • Wybierz typ problemu : klasyfikację lub regresję.
  • Określ kolumnę Prediction (Przewidywanie), kolumnę zawierającą przewidywane wartości modelu.
  • Opcjonalnie określ kolumnę Label, kolumnę zawierającą podstawowe informacje dla prognoz modelu.
  • Określ kolumnę identyfikatora modelu , kolumnę zawierającą identyfikator modelu używanego do przewidywania.

Zaplanuj

Aby skonfigurować monitor do uruchomienia zgodnie z harmonogramem, wybierz pozycję Odśwież zgodnie z harmonogramem i wybierz częstotliwość i czas uruchamiania monitora. Jeśli monitor nie ma być uruchamiany automatycznie, wybierz pozycję Odśwież ręcznie. Jeśli wybierzesz opcję Odśwież ręcznie, możesz później odświeżyć metryki z karty jakości.

Notifications

Aby skonfigurować powiadomienia e-mail dla monitora, wprowadź wiadomość e-mail, która ma zostać powiadomiona, i wybierz powiadomienia, które mają zostać włączone. Na typ zdarzenia powiadomienia jest obsługiwanych maksymalnie 5 wiadomości e-mail.

Ogólne

W sekcji Ogólne należy określić jedno wymagane ustawienie i kilka dodatkowych opcji konfiguracji:

  • Należy określić schemat Unity Catalog, w którym przechowywane są tabele metryk utworzone przez monitor. Lokalizacja musi być w formacie {catalog}. {schema}.

Można również określić następujące ustawienia:

  • Katalog Assets. Wprowadź ścieżkę bezwzględną do istniejącego katalogu, aby przechowywać zasoby monitorowania, takie jak wygenerowany pulpit nawigacyjny. Domyślnie zasoby są przechowywane w katalogu domyślnym: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Jeśli wprowadzisz inną lokalizację w tym polu, zasoby zostaną utworzone w obszarze "/{table_name}" w określonym katalogu. Ten katalog może znajdować się w dowolnym miejscu w obszarze roboczym. W przypadku monitorów przeznaczonych do udostępniania w organizacji można użyć ścieżki w katalogu "/Shared/".

    Nie można pozostawić tego pola pustego.

  • nazwa tabeli bazowej Unity Catalog. Nazwa tabeli lub widoku zawierającego dane odniesienia do porównania. Aby uzyskać więcej informacji na temat tabel bazowych, zobacz Podstawowa tabela wejściowa i tabela bazowa.

  • Wyrażenia fragmentowania metryk. Wyrażenia fragmentowania umożliwiają definiowanie podzestawów tabeli do monitorowania oprócz tabeli jako całości. Aby utworzyć wyrażenie fragmentowania, kliknij pozycję Dodaj wyrażenie i wprowadź definicję wyrażenia. Na przykład wyrażenie "col_2 > 10" generuje dwa wycinki: jeden dla col_2 > 10 i jeden dla col_2 <= 10. W innym przykładzie wyrażenie "col_1" wygeneruje jeden wycinek dla każdej unikatowej wartości w col_1. Dane są pogrupowane niezależnie od każdego wyrażenia, co powoduje utworzenie oddzielnego wycinka dla każdego predykatu i jego uzupełnień.

  • Metryki niestandardowe. Metryki niestandardowe są wyświetlane w tabelach metryk, podobnie jak w przypadku każdej wbudowanej metryki. Aby uzyskać szczegółowe informacje, zobacz Use custom metrics with Databricks Lakehouse Monitoring (Używanie metryk niestandardowych z monitorowaniem usługi Databricks Lakehouse). Aby skonfigurować metrykę niestandardową, kliknij pozycję Dodaj metrykę niestandardową.

    • Wprowadź nazwę metryki niestandardowej.
    • Wybierz typ niestandardowej metryki , jedną z Aggregate, Derivedlub Drift. Aby zapoznać się z definicjami, zobacz Typy metryk niestandardowych.
    • Z listy rozwijanej w Kolumny wejściowewybierz kolumny, do których ma być zastosowana metryka.
    • W polu Typ danych wyjściowych wybierz typ danych Spark dla metryki.
    • W polu Definicja wprowadź kod SQL definiujący metryki niestandardowej.

Edytowanie ustawień monitora w interfejsie użytkownika

Po utworzeniu monitora możesz wprowadzić zmiany w ustawieniach monitora, klikając przycisk Edytuj konfigurację monitora na karcie Jakość .

Odśwież i wyświetl wyniki monitora w interfejsie użytkownika

Aby ręcznie uruchomić monitor, kliknij pozycję Odśwież metryki.

Aby uzyskać informacje o statystykach przechowywanych w tabelach metryk monitora, zobacz Tabele metryk monitora. Tabele metryk to tabele Unity Catalog. Zapytania można wykonywać w notesach lub w Eksploratorze zapytań SQL i wyświetlać je w Eksploratorze wykazu.

Kontrola dostępu do monitorowania danych wyjściowych

Tabele metryk i pulpit nawigacyjny utworzony przez monitor są własnością użytkownika, który utworzył monitor. Uprawnienia Unity Catalog umożliwiają kontrolowanie dostępu do tabel metryk. Aby udostępnić pulpity nawigacyjne w obszarze roboczym, kliknij przycisk Udostępnij w prawym górnym rogu pulpitu nawigacyjnego.

Usuwanie monitora z interfejsu użytkownika

Aby usunąć monitor z interfejsu użytkownika, kliknij menu kebab obok przycisku Odśwież metryki i wybierz pozycję Usuń monitor.