Używanie przeglądarki zadań i widoku zadań dla usługi Azure Data Lake Analytics

Artykuł
2023-12-20

Ważne

Usługa Azure Data Lake Analytics została wycofana 29 lutego 2024 r. Dowiedz się więcej z tym ogłoszeniem.

Na potrzeby analizy danych organizacja może używać usługi Azure Synapse Analytics lub microsoft fabric.

Usługa Azure Data Lake Analytics archiwizuje przesłane zadania w magazynie zapytań. Z tego artykułu dowiesz się, jak używać przeglądarki zadań i widoku zadań w narzędziach Azure Data Lake Tools for Visual Studio w celu znalezienia informacji historycznych o zadaniu.

Domyślnie usługa Data Lake Analytics archiwizuje zadania przez 30 dni. Okres wygaśnięcia można skonfigurować w witrynie Azure Portal, konfigurując dostosowane zasady wygasania. Po wygaśnięciu nie będzie można uzyskać dostępu do informacji o zadaniu.

Wymagania wstępne

Zobacz wymagania wstępne dla Data Lake Tools for Visual Studio.

Otwieranie przeglądarki zadań

Uzyskaj dostęp do przeglądarki zadań za pośrednictwem eksploratora server>azure>Data Lake Analytics>Jobs w programie Visual Studio. Za pomocą przeglądarki zadań możesz uzyskać dostęp do magazynu zapytań konta usługi Data Lake Analytics. Przeglądarka zadań pokazuje magazyn zapytań po lewej stronie z podstawowymi informacjami o zadaniu, a Widok zadania po prawej stronie ze szczegółowymi informacjami o zadaniu.

Widok zadania

Widok zadania zawiera szczegółowe informacje o zadaniu. Aby otworzyć zadanie, możesz kliknąć dwukrotnie zadanie w przeglądarce zadań lub otworzyć je z menu usługi Data Lake, klikając pozycję Widok zadania. Powinno zostać wyświetlone okno dialogowe wypełnione adresem URL zadania.

Data Lake Tools Visual Studio Job Browser

Widok zadania zawiera:

Podsumowanie zadania

Odśwież widok zadania, aby wyświetlić najnowsze informacje o uruchamianiu zadań.
- Stan zadania (graf):
  
  Stan zadania przedstawia fazy zadania:
  - Przygotowywanie: przekazywanie skryptu do chmury, kompilowanie i optymalizowanie skryptu przy użyciu usługi kompilowania.
  - W kolejce: zadania są ustawiane w kolejce, gdy oczekują na wystarczającą liczbę potrzebnych zasobów, lub gdy zadania przekraczają maksymalną liczbę równoczesnych zadań na konto. Ustawienie priorytetu określa sekwencję zadań w kolejce — im niższa liczba, tym wyższy priorytet.
  - Uruchomione: zadanie jest rzeczywiście uruchomione na koncie usługi Data Lake Analytics.
  - Finalizowanie: zadanie jest ukończone (na przykład finalizowanie pliku).
    
    Zadanie może zakończyć się niepowodzeniem w każdej fazie. Na przykład błędy kompilacji w fazie Przygotowywania, błędy przekroczenia limitu czasu w fazie kolejki i błędy wykonywania w fazie Uruchamiania itp.
- Informacje podstawowe
  
  Podstawowe informacje o zadaniu są wyświetlane w dolnej części panelu Podsumowanie zadania.
  - Wynik zadania: powodzenie lub niepowodzenie. Zadanie może zakończyć się niepowodzeniem w każdej fazie.
  - Całkowity czas trwania: czas zegara ściany (czas trwania) między przesłaniem a czasem zakończenia.
  - Łączny czas obliczeń: suma czasu wykonywania każdego wierzchołka, którą można wziąć pod uwagę jako czas wykonywania zadania tylko w jednym wierzchołku. Aby uzyskać więcej informacji na temat wierzchołka, zobacz Total Vertices.
  - Czas przesyłania/rozpoczęcia/zakończenia: godzina odebrania przez usługę Data Lake Analytics przesłania/rozpoczyna uruchamianie zadania/kończy zadanie pomyślnie lub nie.
  - Kompilowanie/Kolejkowanie/Uruchamianie: czas rzeczywisty spędzony w fazie Przygotowywanie/Kolejkowanie/Uruchamianie.
  - Konto: konto usługi Data Lake Analytics używane do uruchamiania zadania.
  - Autor: użytkownik, który przesłał zadanie, może to być konto rzeczywistej osoby lub konto systemowe.
  - Priorytet: priorytet zadania. Im niższa liczba, tym wyższy priorytet. Ma to wpływ tylko na sekwencję zadań w kolejce. Ustawienie wyższego priorytetu nie blokuje uruchomionych zadań.
  - Równoległość: żądana maksymalna liczba współbieżnych jednostek usługi Azure Data Lake Analytics (ADLAU), znana również jako wierzchołki. Obecnie jeden wierzchołek jest równy jednej maszynie wirtualnej z dwoma rdzeniami wirtualnymi i sześcio GB pamięci RAM, choć może to zostać uaktualnione w przyszłych aktualizacjach usługi Data Lake Analytics.
  - Bajty po lewej: bajty, które należy przetworzyć do momentu zakończenia zadania.
  - Odczyt/zapis bajtów: bajty, które zostały odczytane/zapisane od momentu uruchomienia zadania.
  - Całkowita liczba wierzchołków: Zadanie jest podzielone na wiele części, z których każda nazywana jest wierzchołkiem. Ta wartość opisuje liczbę elementów roboczych, z których składa się zadanie. Możesz rozważyć wierzchołek jako podstawową jednostkę procesu, znaną również jako jednostka usługi Azure Data Lake Analytics (ADLAU), a wierzchołki mogą być uruchamiane równolegle.
  - Ukończono/Uruchomiono/Nie powiodło się: liczba ukończonych/uruchomionych/zakończonych niepowodzeniem wierzchołków. Wierzchołki mogą zakończyć się niepowodzeniem zarówno z powodu awarii kodu użytkownika, jak i systemu, ale system automatycznie ponownie próbuje uruchomić nieudane wierzchołki kilka razy. Jeśli wierzchołek nadal będzie nieudany po ponownej próbie, całe zadanie zakończy się niepowodzeniem.
Wykres zadań

Skrypt U-SQL reprezentuje logikę przekształcania danych wejściowych na dane wyjściowe. Skrypt jest kompilowany i zoptymalizowany pod kątem fizycznego planu wykonywania w fazie przygotowywania. Program Job Graph służy do wyświetlania fizycznego planu wykonywania. Na poniższym diagramie przedstawiono proces:

Zadanie jest podzielone na wiele elementów pracy. Każdy element pracy jest nazywany "Vertex". Wierzchołki są pogrupowane jako superwierzchołki (nazywane również etapem) i wizualizowane jako Job Graph. Zielone tablice etapowe na wykresie zadań pokazują etapy.

Każdy wierzchołek na etapie wykonuje taką samą pracę z różnymi elementami tych samych danych. Na przykład jeśli masz plik z danymi o jednym TB i istnieje setki wierzchołków odczytanych z niego, każdy z nich odczytuje fragment. Te wierzchołki są grupowane na tym samym etapie i wykonują tę samą pracę na różnych fragmentach tego samego pliku wejściowego.
- Informacje o etapie
  
  W konkretnym etapie niektóre liczby są wyświetlane na tablicy.
  - SV1 Extract: nazwa etapu, określona za pomocą liczby i metody operacyjnej.
  - 84 wierzchołki: łączna liczba wierzchołków na tym etapie. Rysunek wskazuje, ile elementów pracy jest podzielonych na tym etapie.
  - 12,90 s/wierzchołek: średni czas wykonania wierzchołka dla tego etapu. Wartość ta jest obliczana jako suma czasów wykonywania wszystkich wierzchołków podzielona przez łączną liczbę wierzchołków. Co oznacza, że gdyby można było przypisać wszystkie wierzchołki do wykonania równolegle, cały etap byłby ukończony w 12,90 s. Oznacza to również, że jeśli wszystkie prace na tym etapie są wykonywane szeregowo, koszt wyniesie #vertices * średni czas.
  - Zapisano 850 895 wierszy: łączna liczba wierszy zapisanych na tym etapie.
  - R/W: Ilość danych odczytanych/zapisanych na tym etapie w bajtach.
  - Kolory: Kolory są używane na etapie, aby wskazać inny stan wierzchołka.
    - Zielony wskazuje, że wierzchołek zakończył się pomyślnie.
    - Pomarańczowy wskazuje, że wierzchołek jest ponawiany. Ponowiony wierzchołek zakończył się niepowodzeniem, ale system automatycznie ponowił i zakończył ten proces pomyślnie, a cały etap został ukończony pomyślnie. Jeśli wierzchołek ponowił próbę, ale nadal zakończył się niepowodzeniem, jego kolor zmieni się na czerwony, a całe zadanie nie powiodło się.
    - Czerwony wskazuje na niepowodzenie, co oznacza, że dany wierzchołek był próbowany przetworzyć kilka razy przez system, ale nadal się nie powiodło. Ten scenariusz powoduje niepowodzenie całego zadania.
    - Niebieski oznacza, że określony wierzchołek jest uruchomiony.
    - Biały wskazuje, że wierzchołek czeka. Wierzchołek może czekać na zaplanowanie, gdy odpowiednia jednostka ADLAU będzie dostępna, lub może czekać na dane wejściowe, ponieważ mogą one nie być jeszcze gotowe.
    Aby uzyskać więcej szczegółów dla etapu, umieść kursor myszy na jednym stanie:
- Wierzchołki: Opisuje szczegóły wierzchołków, na przykład ile wierzchołków jest ogółem, ile wierzchołków zostało ukończonych, czy się nie powiodły, czy nadal działają lub czekają itp.
- Odczyt danych między i wewnątrz zasobników: pliki i dane są przechowywane w wielu zasobnikach w rozproszonym systemie plików. W tym miejscu opisano, ile danych zostało odczytanych w tym samym zasobniku lub pomiędzy różnymi zasobnikami.
- Łączny czas obliczeń: suma czasu wykonywania każdego wierzchołka na etapie, można ją wziąć pod uwagę jako czas potrzebny, jeśli wszystkie prace na etapie są wykonywane tylko w jednym wierzchołku.
- Dane i wiersze zapisane/odczytane: wskazuje, ile danych lub wierszy zostało odczytanych/zapisanych lub trzeba je odczytać.
- Błędy odczytu wierzchołków: opisuje, ile wierzchołków nie zostało poprawnie odczytanych podczas odczytu danych.
- Duplikaty wierzchołków są odrzucane: jeśli wierzchołek działa zbyt wolno, system może zaplanować wiele wierzchołków, aby uruchomić to samo zadanie. Nadmiarowe wierzchołki zostaną odrzucone po pomyślnym zakończeniu jednego z wierzchołków. Liczba duplikatów wierzchołków odrzuconych na etapie jest rejestrowana.
- Odwołania wierzchołków: wierzchołek został ukończony, ale zostanie uruchomiony ponownie później z jakichś powodów. Jeśli na przykład wierzchołek podrzędny utraci dane wejściowe pośrednie, zostanie wyświetlony monit o ponowne uruchomienie nadrzędnego wierzchołka.
- Wykonanie harmonogramu wierzchołków: całkowity czas, przez jaki wierzchołki zostały zaplanowane.
- Minimalna/średnia/maksymalna wartość danych odczytu wierzchołków: minimalna/średnia/maksymalna wartość dla każdego odczytu danych wierzchołka.
- Czas trwania: Aby zobaczyć, ile trwa dany etap w czasie rzeczywistym, musisz załadować profil.
- Odtwarzanie zadania
  
  Usługa Data Lake Analytics uruchamia zadania i archiwizuje informacje o przebiegu wierzchołków związane z zadaniami, takie jak moment ich uruchomienia, zatrzymania, wystąpienia błędów oraz sposób ich ponownego uruchamiania, itp. Wszystkie te dane są automatycznie rejestrowane w magazynie zapytań i przechowywane w profilu zadania. Profil zadania można pobrać za pomocą pozycji "Załaduj profil" w widoku zadania i wyświetlić odtwarzanie zadania po pobraniu profilu zadania.
  
  Przegląd zadań jest najlepszym odzwierciedleniem wizualizacji tego, co wydarzyło się w klastrze. To narzędzie ułatwia obserwowanie postępu wykonywania zadań i wizualne wykrywanie anomalii związanych z wydajnością oraz wąskich gardeł w bardzo krótkim czasie (zwykle mniej niż 30 s).
- Wyświetlanie mapy cieplnej pracy
  
  Mapę cieplną zadania można wybrać za pomocą listy rozwijanej Wyświetlanie w wykresie zadań.
  
  mapa składowania grafu zadań usługi Azure Data Lake Analytics
  
  Pokazuje mapę cieplną wejścia/wyjścia, czasu i przepustowości zadania, dzięki której można określić, gdzie zadanie spędza większość czasu lub czy jest to zadanie ograniczone wejściem/wyjściem, i tak dalej.
  - Postęp: postęp wykonywania zadania, zobacz Informacje w informacjach o etapie.
  - Odczyt/zapis danych: mapa cieplna całkowitego odczytu/zapisu danych na każdym etapie.
  - Czas obliczeniowy: mapa cieplna sumy (czas wykonania wszystkich wierzchołków), co można traktować jako czas, jaki byłby potrzebny, gdyby wszystkie zadania na etapie zostały wykonane przy użyciu tylko jednego wierzchołka.
  - Średni czas wykonywania na węzeł: mapa cieplna SUM (każdy czas wykonywania wierzchołka) / (Liczba wierzchołków). Co oznacza, że jeśli można przypisać wszystkie wierzchołki wykonywane równolegle, cały etap zostanie wykonany w tym przedziale czasu.
  - Przepływność wejściowa/wyjściowa: mapa cieplna przepływności wejściowej/wyjściowej każdego etapu, możesz potwierdzić, czy zadanie jest zadaniem powiązanym we/wy.
Operacje na metadanych

Niektóre operacje na metadanych można wykonać w skryscie U-SQL, na przykład utworzyć bazę danych, usunąć tabelę itp. Te operacje są wyświetlane w operacji metadanych po kompilacji. W tym miejscu można znaleźć asercje, tworzyć jednostki, usuwać jednostki.
Historia stanu

Historia stanu jest również wizualizowana w podsumowaniu zadania, ale tutaj możesz uzyskać więcej szczegółów. Można znaleźć szczegółowe informacje, takie jak czas przygotowania, ustawienia w kolejce, rozpoczęcia, czy zakończenia zadania. Można również sprawdzić, ile razy zadanie zostało skompilowane (ccsAttempts: 1), kiedy zadanie jest wysyłane do klastra faktycznie (szczegóły: wysyłanie zadania do klastra) itp.
Diagnostyka

Narzędzie automatycznie diagnozuje wykonywanie zadania. Otrzymasz alerty, gdy występują błędy lub problemy z wydajnością w zadaniach. Pamiętaj, że musisz pobrać profil, aby uzyskać pełne informacje tutaj.
- Ostrzeżenia: w tym miejscu jest wyświetlany alert z ostrzeżeniem kompilatora. Po pojawieniu się alertu możesz wybrać link "x issue(s)", aby uzyskać więcej szczegółów.
- Wierzchołek działa zbyt długo: jeśli jakikolwiek wierzchołek przekroczy czas (na przykład 5 godzin), problemy mogą zostać tutaj wykryte.
- Użycie zasobów: Jeśli przydzielisz więcej lub mniej równoległości niż potrzeba, problemy zostaną tutaj wykryte. Możesz również wybrać pozycję Użycie zasobów, aby wyświetlić więcej szczegółów i wykonać scenariusze analizy co-jeżeli, aby znaleźć lepszą alokację zasobów (aby uzyskać więcej szczegółów, zobacz ten przewodnik).
- Sprawdzanie pamięci: jeśli jakikolwiek wierzchołek używa więcej niż 5 GB pamięci, wystąpią problemy. Wykonanie zadania może zostać zatrzymane przez system, jeśli używa więcej pamięci niż ograniczenia systemowe.

Szczegóły zadania

Szczegóły zadania zawierają informacje o zadaniu, w tym skrypt, zasoby i Vertex Execution View.

szczegóły zadania usługi Azure Data Lake Analytics

Skrypt

Skrypt języka U-SQL dla zadania jest przechowywany w magazynie zapytań. W razie potrzeby możesz wyświetlić oryginalny skrypt U-SQL i przesłać go ponownie.
Zasoby

Dane wyjściowe kompilacji zadania można znaleźć w magazynie zapytań za pośrednictwem zasobów. Na przykład, tutaj możesz znaleźć “algebra.xml”, który służy do wyświetlania Wykresu Zadań, zarejestrowanych zestawów itp.
Widok realizacji wierzchołka

Zawiera on szczegóły wykonywania wierzchołków. Profil zadania archiwizuje każdy dziennik wykonywania wierzchołka, takie jak całkowita ilość danych odczytanych/zapisanych, czas działania, stan itp. W tym widoku możesz uzyskać więcej informacji na temat, jak zadanie działało. Aby uzyskać więcej informacji, zobacz Użyj widoku wykonania wierzchołków w narzędziach Data Lake dla Visual Studio.

Następne kroki

Aby rejestrować informacje diagnostyczne, zobacz Uzyskiwanie dostępu do dzienników diagnostycznych usługi Azure Data Lake Analytics
Aby wyświetlić bardziej złożone zapytanie, zobacz Analizowanie dzienników witryn internetowych przy użyciu usługi Azure Data Lake Analytics.
Aby użyć widoku wykonywania wierzchołka, zobacz Używanie widoku wykonywania wierzchołka w narzędziach Data Lake Tools for Visual Studio

Udostępnij za pośrednictwem