Udostępnij za pośrednictwem


Tworzenie monitora przy użyciu interfejsu użytkownika usługi Databricks

W tym artykule przedstawiono tworzenie monitora danych przy użyciu interfejsu użytkownika usługi Databricks. Możesz również użyć interfejsu API.

Aby uzyskać dostęp do interfejsu użytkownika usługi Databricks, wykonaj następujące czynności:

  1. Na pasku bocznym po lewej stronie obszaru roboczego kliknij Ikona wykazu , aby otworzyć Eksploratora wykazu.
  2. Przejdź do tabeli, którą chcesz monitorować.
  3. Kliknij kartę Jakość .
  4. Kliknij przycisk Rozpocznij.
  5. W obszarze Tworzenie monitora wybierz opcje, które chcesz skonfigurować monitor.

Profilowanie

W menu Typ profilu wybierz typ monitora, który chcesz utworzyć. Typy profilów są wyświetlane w tabeli.

Typ profilu opis
Profil szeregów czasowych Tabela zawierająca wartości mierzone w czasie. Ta tabela zawiera kolumnę znacznika czasu.
Profil wnioskowania Tabela zawierająca przewidywane wartości wyjściowe według klasyfikacji lub modelu regresji uczenia maszynowego. Ta tabela zawiera sygnaturę czasową, identyfikator modelu, dane wejściowe modelu (funkcje), kolumnę zawierającą przewidywania modelu oraz opcjonalne kolumny zawierające unikatowe identyfikatory obserwacji i etykiety podstaw prawdy. Może również zawierać metadane, takie jak informacje demograficzne, które nie są używane jako dane wejściowe do modelu, ale mogą być przydatne w przypadku badań uczciwości i stronniczości lub innych monitorowania.
Profil migawki Dowolna tabela zarządzana delty, tabela zewnętrzna, widok, zmaterializowany widok lub tabela przesyłania strumieniowego.

Jeśli wybierzesz TimeSeries lub Inference, wymagane są dodatkowe parametry i zostały opisane w poniższych sekcjach.

Uwaga

  • Podczas pierwszego tworzenia szeregu czasowego lub profilu wnioskowania monitor analizuje tylko dane z 30 dni przed jego utworzeniem. Po utworzeniu monitora wszystkie nowe dane są przetwarzane.
  • Monitory zdefiniowane na zmaterializowanych widokach i tabelach przesyłania strumieniowego nie obsługują przetwarzania przyrostowego.

Napiwek

W przypadku TimeSeries profilów i Inference najlepszym rozwiązaniem jest włączenie zestawienia danych zmian (CDF) w tabeli. Po włączeniu usługi CDF przetwarzane są tylko nowo dołączone dane, a nie ponowne przetwarzanie całej tabeli przy każdym odświeżeniu. Dzięki temu wykonywanie jest wydajniejsze i zmniejsza koszty podczas skalowania monitorowania w wielu tabelach.

TimeSeries profil

TimeSeries W przypadku profilu należy wybrać następujące opcje:

  • Określ stopień szczegółowości metryk określający sposób partycjonowania danych w oknach w czasie.
  • Określ kolumnę Sygnatura czasowa, kolumnę w tabeli, która zawiera znacznik czasu. Typ danych kolumny sygnatury czasowej musi być typu TIMESTAMP lub typu, który można przekonwertować na znaczniki czasu przy użyciu to_timestamp funkcji PySpark.

Inference profil

Inference W przypadku profilu oprócz szczegółowości i znacznika czasu należy wybrać następujące opcje:

  • Wybierz typ problemu, klasyfikację lub regresję.
  • Określ kolumnę Prediction (Przewidywanie), kolumnę zawierającą przewidywane wartości modelu.
  • Opcjonalnie określ kolumnę Label (Etykieta), kolumnę zawierającą podstawę dla prognoz modelu.
  • Określ kolumnę Identyfikator modelu, kolumnę zawierającą identyfikator modelu używanego do przewidywania.

Zaplanuj

Aby skonfigurować monitor do uruchomienia zgodnie z harmonogramem, wybierz pozycję Odśwież zgodnie z harmonogramem i wybierz częstotliwość i czas uruchamiania monitora. Jeśli nie chcesz, aby monitor był uruchamiany automatycznie, wybierz pozycję Odśwież ręcznie. Jeśli wybierzesz opcję Odśwież ręcznie, możesz później odświeżyć metryki na karcie Jakość .

Notifications

Aby skonfigurować powiadomienia e-mail dla monitora, wprowadź wiadomość e-mail, która ma zostać powiadomiona, i wybierz powiadomienia, które mają zostać włączone. Na typ zdarzenia powiadomienia jest obsługiwanych maksymalnie 5 wiadomości e-mail.

Ogólne

W sekcji Ogólne należy określić jedno wymagane ustawienie i kilka dodatkowych opcji konfiguracji:

  • Należy określić schemat wykazu aparatu Unity, w którym przechowywane są tabele metryk utworzone przez monitor. Lokalizacja musi być w formacie {catalog}. {schema}.

Można również określić następujące ustawienia:

  • Katalog Assets. Wprowadź ścieżkę bezwzględną do istniejącego katalogu, aby przechowywać zasoby monitorowania, takie jak wygenerowany pulpit nawigacyjny. Domyślnie zasoby są przechowywane w katalogu domyślnym: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Jeśli wprowadzisz inną lokalizację w tym polu, zasoby zostaną utworzone w obszarze "/{table_name}" w określonym katalogu. Ten katalog może znajdować się w dowolnym miejscu w obszarze roboczym. W przypadku monitorów przeznaczonych do udostępniania w organizacji można użyć ścieżki w katalogu "/Shared/".

    Nie można pozostawić tego pola pustego.

  • Nazwa tabeli punktu odniesienia wykazu aparatu Unity. Nazwa tabeli lub widoku zawierającego dane odniesienia do porównania. Aby uzyskać więcej informacji na temat tabel bazowych, zobacz Podstawowa tabela wejściowa i tabela odniesienia.

  • Wyrażenia fragmentowania metryk. Wyrażenia fragmentowania umożliwiają definiowanie podzestawów tabeli w celu monitorowania poza tabelą jako całością. Aby utworzyć wyrażenie fragmentowania, kliknij pozycję Dodaj wyrażenie i wprowadź definicję wyrażenia. Na przykład wyrażenie "col_2 > 10" generuje dwa wycinki: jeden dla col_2 > 10 i jeden dla col_2 <= 10. W innym przykładzie wyrażenie "col_1" wygeneruje jeden wycinek dla każdej unikatowej wartości w pliku col_1. Dane są pogrupowane niezależnie od każdego wyrażenia, co powoduje utworzenie oddzielnego wycinka dla każdego predykatu i jego uzupełnień.

  • Metryki niestandardowe. Metryki niestandardowe są wyświetlane w tabelach metryk, takich jak każda wbudowana metryka. Aby uzyskać szczegółowe informacje, zobacz Use custom metrics with Databricks Lakehouse Monitoring (Używanie metryk niestandardowych z monitorowaniem usługi Databricks Lakehouse). Aby skonfigurować metrykę niestandardową, kliknij pozycję Dodaj metrykę niestandardową.

    • Wprowadź nazwę metryki niestandardowej.
    • Wybierz niestandardowy typ metryki, jeden z Aggregate, Derivedlub Drift. Aby zapoznać się z definicjami, zobacz Typy metryk niestandardowych.
    • Z listy rozwijanej w kolumnach Wejściowych wybierz kolumny, do których ma być zastosowana metryka.
    • W polu Typ danych wyjściowych wybierz typ danych platformy Spark metryki.
    • W polu Definicja wprowadź kod SQL definiujący metryki niestandardowej.

Edytowanie ustawień monitora w interfejsie użytkownika

Po utworzeniu monitora możesz wprowadzić zmiany w ustawieniach monitora, klikając przycisk Edytuj konfigurację monitora na karcie Jakość .

Odświeżanie i wyświetlanie wyników monitora w interfejsie użytkownika

Aby uruchomić monitor ręcznie, kliknij pozycję Odśwież metryki.

Aby uzyskać informacje o statystykach przechowywanych w tabelach metryk monitora, zobacz Monitorowanie tabel metryk. Tabele metryk to tabele wykazu aparatu Unity. Zapytania można wykonywać w notesach lub w Eksploratorze zapytań SQL i wyświetlać je w Eksploratorze wykazu.

Kontrola dostępu do monitorowania danych wyjściowych

Tabele metryk i pulpit nawigacyjny utworzony przez monitor są własnością użytkownika, który utworzył monitor. Uprawnienia wykazu aparatu Unity umożliwiają kontrolowanie dostępu do tabel metryk. Aby udostępnić pulpity nawigacyjne w obszarze roboczym, kliknij przycisk Udostępnij w prawym górnym rogu pulpitu nawigacyjnego.

Usuwanie monitora z interfejsu użytkownika

Aby usunąć monitor z interfejsu użytkownika, kliknij menu kebab obok przycisku Odśwież metryki i wybierz pozycję Usuń monitor.