Udostępnij za pośrednictwem


Wyświetlanie metryk obliczeniowych

W tym artykule wyjaśniono, jak używać natywnego narzędzia metryk obliczeniowych w interfejsie użytkownika usługi Azure Databricks do zbierania kluczowych metryk sprzętu i platformy Spark. Interfejs użytkownika metryk jest dostępny dla obliczeń wszystkich celów i zadań.

Uwaga

Bezserwerowe obliczenia dla notesów i zadań używają szczegółowych informacji o zapytaniach zamiast interfejsu użytkownika metryk. Aby uzyskać więcej informacji na temat metryk obliczeniowych bezserwerowych, zobacz Wyświetlanie szczegółowych informacji o zapytaniach.

Metryki są dostępne niemal w czasie rzeczywistym z normalnym opóźnieniem krótszym niż minuta. Metryki są przechowywane w magazynie zarządzanym przez usługę Azure Databricks, a nie w magazynie klienta.

W jaki sposób te nowe metryki różnią się od Ganglia?

Nowy interfejs użytkownika metryk obliczeniowych ma bardziej kompleksowy widok użycia zasobów klastra, w tym użycie platformy Spark i wewnętrzne procesy usługi Databricks. Natomiast interfejs użytkownika Ganglia mierzy tylko użycie kontenera Platformy Spark. Ta różnica może spowodować rozbieżności w wartościach metryk między dwoma interfejsami.

Uzyskiwanie dostępu do interfejsu użytkownika metryk obliczeniowych

Aby wyświetlić interfejs użytkownika metryk obliczeniowych:

  1. Kliknij pozycję Obliczenia na pasku bocznym.
  2. Kliknij zasób obliczeniowy, dla którego chcesz wyświetlić metryki.
  3. Kliknij kartę Metryki .

Metryki klastra z ostatnich 24 godzin

Metryki sprzętu są domyślnie wyświetlane. Aby wyświetlić metryki platformy Spark, kliknij menu rozwijane z etykietą Sprzęt i wybierz pozycję Spark. Możesz również wybrać procesor GPU , jeśli wystąpienie jest włączone przez procesor GPU.

Filtrowanie metryk według okresu

Metryki historyczne można wyświetlić, wybierając zakres czasu przy użyciu filtru selektora dat. Metryki są zbierane co minutę, dzięki czemu można filtrować według dowolnego zakresu dnia, godziny lub minuty z ostatnich 30 dni. Kliknij ikonę kalendarza, aby wybrać z wstępnie zdefiniowanych zakresów danych, lub kliknij wewnątrz pola tekstowego, aby zdefiniować wartości niestandardowe.

Uwaga

Interwały czasu wyświetlane na wykresach są dostosowywane na podstawie czasu wyświetlania. Większość metryk to średnie na podstawie aktualnie wyświetlanego interwału czasu.

Możesz również pobrać najnowsze metryki, klikając przycisk Odśwież .

Wyświetlanie metryk na poziomie węzła

Metryki dla poszczególnych węzłów można wyświetlić, klikając menu rozwijane Obliczenia i wybierając węzeł, dla którego chcesz wyświetlić metryki. Metryki procesora GPU są dostępne tylko na poziomie poszczególnych węzłów. Metryki platformy Spark nie są dostępne dla poszczególnych węzłów.

Uwaga

Jeśli nie wybierzesz określonego węzła, wynik zostanie uśredniony dla wszystkich węzłów w klastrze (w tym sterownika).

Wykresy metryk sprzętu

Następujące wykresy metryk sprzętu są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:

  • Rozkład obciążenia serwera: na tym wykresie przedstawiono wykorzystanie procesora CPU w ciągu ostatniej minuty dla każdego węzła.
  • Użycie procesora CPU: procent czasu, przez jaki procesor cpu spędził w każdym trybie, na podstawie łącznego kosztu sekund procesora CPU. Metryka jest uśredniona na podstawie przedziału czasu wyświetlanego na wykresie. Poniżej przedstawiono tryby śledzone:
    • gość: jeśli używasz maszyn wirtualnych, użyj procesora CPU tych maszyn wirtualnych
    • iowait: Czas spędzony na oczekiwaniu na we/wy
    • bezczynność: czas, w jakim procesor nie miał nic wspólnego
    • irq: Czas spędzony na żądaniach przerwania
    • nice: Czas używany przez procesy, które mają pozytywną niceness, co oznacza niższy priorytet niż inne zadania
    • softirq: Czas spędzony na żądaniach przerwań oprogramowania
    • kradzież: Jeśli jesteś maszyną wirtualną, czas, kiedy inne maszyny wirtualne "ukradły" z procesorów CPU
    • system: czas spędzony w jądrze
    • użytkownik: czas spędzony w userlandzie
  • Wykorzystanie pamięci: łączne użycie pamięci w poszczególnych trybach mierzone w bajtach i uśrednione na podstawie przedziału czasu wyświetlanego na wykresie. Śledzone są następujące typy użycia:
    • używane: używana pamięć (w tym pamięć używana przez procesy w tle uruchomione na obliczeniach)
    • wolne: nieużywane pamięci
    • bufor: pamięć używana przez jądra
    • buforowane: pamięć używana przez pamięć podręczną systemu plików na poziomie systemu operacyjnego
  • Wykorzystanie zamiany pamięci: łączne użycie zamiany pamięci w poszczególnych trybach mierzone w bajtach i uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
  • Wolne miejsce w systemie plików: łączne użycie systemu plików przez każdy punkt instalacji mierzone w bajtach i uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
  • Odebrane za pośrednictwem sieci: liczba bajtów odebranych przez sieć przez każde urządzenie, uśredniona na podstawie zależnie od przedziału czasu wyświetlanego na wykresie.
  • Przesyłane za pośrednictwem sieci: liczba bajtów przesyłanych przez sieć przez każde urządzenie, uśredniona na podstawie przedziału czasu wyświetlanego na wykresie.
  • Liczba aktywnych węzłów: pokazuje liczbę aktywnych węzłów przy każdym znaczniku czasu dla danego obliczenia.

Wykresy metryk platformy Spark

Następujące wykresy metryk platformy Spark są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:

  • Rozkład obciążenia serwera: na tym wykresie przedstawiono wykorzystanie procesora CPU w ciągu ostatniej minuty dla każdego węzła.
  • Aktywne zadania: łączna liczba zadań wykonywanych w danym czasie, uśredniona na podstawie przedziału czasu wyświetlanego na wykresie.
  • Łączna liczba zadań zakończonych niepowodzeniem: łączna liczba zadań, które zakończyły się niepowodzeniem w funkcjach wykonawczych, uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
  • Łączna liczba wykonanych zadań: całkowita liczba zadań, które zostały ukończone w funkcjach wykonawczych, uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
  • Całkowita liczba zadań: całkowita liczba wszystkich zadań (uruchomionych, zakończonych niepowodzeniem i ukończonych) w funkcjach wykonawczych, uśredniona na podstawie przedziału czasu wyświetlanego na wykresie.
  • Łączna liczba operacji odczytu: łączny rozmiar danych odczytu mieszania mierzony w bajtach i uśredniony na podstawie przedziału czasu wyświetlanego na wykresie. Shuffle read oznacza sumę serializacji danych odczytu na wszystkich funkcjach wykonawczych na początku etapu.
  • Łączny zapis mieszania: łączny rozmiar danych zapisu mieszania mierzony w bajtach i uśredniony na podstawie przedziału czasu wyświetlanego na wykresie. Shuffle Write jest sumą wszystkich zapisanych serializowanych danych na wszystkich funkcjach wykonawczych przed przesłaniem (zwykle na końcu etapu).
  • Łączny czas trwania zadania: łączny czas, który upłynął, przez JVM spędził wykonywanie zadań na funkcjach wykonawczych, mierzony w sekundach i uśredniony na podstawie przedziału czasu wyświetlanego na wykresie.

Wykresy metryk procesora GPU

Uwaga

Metryki procesora GPU są dostępne tylko w środowisku Databricks Runtime ML 13.3 lub nowszym.

Następujące wykresy metryk procesora GPU są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:

  • Rozkład obciążenia serwera: na tym wykresie przedstawiono wykorzystanie procesora CPU w ciągu ostatniej minuty dla każdego węzła.
  • Wykorzystanie dekodera na procesor GPU: procent wykorzystania dekodera procesora GPU, uśredniony na podstawie przedziału czasu wyświetlanego na wykresie.
  • Wykorzystanie kodera na procesor GPU: procent wykorzystania kodera GPU, uśredniony na podstawie przedziału czasu wyświetlanego na wykresie.
  • Użycie pamięci buforu na ramkę procesora GPU bajty: wykorzystanie pamięci buforu ramki, mierzone w bajtach i uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
  • Wykorzystanie pamięci na procesor GPU: procent wykorzystania pamięci procesora GPU, uśredniony na podstawie przedziału czasu wyświetlanego na wykresie.
  • Użycie na procesor GPU: procent wykorzystania procesora GPU, uśredniony na podstawie przedziału czasu wyświetlanego na wykresie.

Rozwiązywanie problemów

Jeśli w danym okresie zobaczysz niekompletne lub brakujące metryki, może to być jeden z następujących problemów:

  • Awaria w usłudze Databricks odpowiedzialna za wykonywanie zapytań i przechowywanie metryk.
  • Problemy z siecią po stronie klienta.
  • Środowisko obliczeniowe jest w złej kondycji lub jest w złej kondycji.