Sdílet prostřednictvím


Monitorování a pozorovatelnost pro úlohy Databricks

Tento článek popisuje funkce dostupné v uživatelském rozhraní Azure Databricks pro zobrazení úloh, ke kterým máte přístup, zobrazení historie spuštění pro úlohu a zobrazení podrobností o spuštěních úloh. Pokud chcete nakonfigurovat oznámení pro úlohy, přečtěte si téma Přidání oznámení doúlohy .

Pokud chcete zjistit, jak pomocí rozhraní příkazového řádku Databricks zobrazit úlohy a spouštět úlohy, spusťte příkazy databricks jobs list -hrozhraní příkazového řádku a databricks jobs get -hdatabricks jobs run-now -h. Další informace o používání rozhraní API pro úlohy najdete v rozhraní API úloh.

Pokud máte přístup ke schématu system.lakeflow , můžete také zobrazit a dotazovat záznamy spuštění úloh a úkolů z celého účtu. Viz Referenční informace k systémové tabulce úloh.

Zobrazení úloh

Pokud chcete zobrazit seznam úloh, ke kterým máte přístup, klikněte na Ikona Pracovních postupůpracovní postupy na bočním panelu. Karta Úlohy v uživatelském rozhraní Pracovních postupů obsahuje informace o všech dostupných úlohách, jako je tvůrce úlohy, aktivační událost úlohy, pokud existuje, a výsledek posledního spuštění.

Pokud chcete změnit sloupce zobrazené v seznamu úloh, klikněte a Ikona Nastavení vyberte nebo zrušte výběr sloupců.

Úlohy můžete filtrovat v seznamu Úloh:

  • Použití klíčových slov Pokud máte pro tento pracovní prostor povolenou funkci zvýšeného limitu úloh, vyhledávání podle klíčových slov se podporuje jenom pro pole názvu, ID úlohy a značky úlohy.
  • Výběr pouze úloh, které vlastníte.
  • Výběr všech úloh, ke kterým máte oprávnění pro přístup.
  • Použití značek Pokud chcete vyhledat značku vytvořenou pouze s klíčem, zadejte klíč do vyhledávacího pole. Pokud chcete vyhledat značku vytvořenou pomocí klíče a hodnoty, můžete hledat podle klíče, hodnoty nebo klíče i hodnoty. Například pro značku s klíčem department a hodnotou financemůžete vyhledat department nebo finance najít odpovídající úlohy. Chcete-li hledat podle klíče a hodnoty, zadejte klíč a hodnotu oddělenou dvojtečku; například department:finance.

Můžete také kliknout na libovolné záhlaví sloupce a seřadit seznam úloh (sestupně nebo vzestupně) podle tohoto sloupce. Pokud je povolena funkce zvýšeného limitu úloh, můžete řadit pouze podle Name, Job IDnebo Created by. Výchozí řazení je Name ve vzestupném pořadí.

Kliknutím Nabídka Kebab zobrazíte přístup k akcím pro úlohu, například odstranit úlohu.

Zobrazení spuštění pro úlohu

Můžete zobrazit seznam aktuálně spuštěných a nedávno dokončených spuštění pro všechny úlohy, ke kterým máte přístup, včetně spuštění externích orchestračních nástrojů, jako je Apache Airflow nebo Azure Data Factory. Zobrazení seznamu posledních spuštění úloh:

  1. Na bočním panelu klikněte na Ikona Pracovních postupůPracovní postupy.
  2. Ve sloupci Název klikněte na název úlohy. Zobrazí se karta Spuštění se zobrazeními matice a seznamu aktivních a dokončených spuštění.

Zobrazení matice zobrazuje historii spuštění pro úlohu, včetně každého úkolu úlohy.

Řádek doby trvání spuštění v matici zobrazuje celkovou dobu trvání spuštění a stav spuštění. Pokud chcete zobrazit podrobnosti o spuštění, včetně času spuštění, doby trvání a stavu, najeďte myší na panel na řádku Doba trvání spuštění.

Každá buňka v řádku Úkoly představuje úkol a odpovídající stav úkolu. Pokud chcete zobrazit podrobnosti o jednotlivých úkolech, včetně času spuštění, doby trvání, clusteru a stavu, najeďte myší na buňku pro daný úkol.

Pruhy spuštění úlohy a spuštění úloh jsou barevně kódované, aby označovaly stav spuštění. Úspěšné běhy jsou zelené, neúspěšné běhy jsou červené a přeskočené běhy jsou růžové. Výška jednotlivých spuštění úloh a pruhů spuštění úloh vizuálně označuje dobu trvání spuštění.

Pokud jste nakonfigurovali očekávanou dobu dokončení, zobrazí se v maticovém zobrazení upozornění, když doba trvání běhu překročí nakonfigurovaný čas.

Ve výchozím nastavení se zobrazí zobrazení seznamu spuštění:

  • Čas spuštění.
  • Identifikátor spuštění.
  • Jestli se spuštění aktivovalo podle plánu úlohy nebo požadavku rozhraní API, nebo se spustilo ručně.
  • Čas uplynulý pro aktuálně spuštěnou úlohu nebo celkovou dobu běhu dokončeného spuštění. Pokud doba trvání překročí nakonfigurovanou očekávanou dobu dokončení, zobrazí se upozornění.
  • Odkazuje na protokoly Sparku.
  • Stav spuštění, buď Queued, , Pending, Running, SkippedSucceededFailedTerminating, , Terminated, , Internal Error, Timed Out, , Canceled, nebo . CancelingWaiting for Retry
  • Kliknutím Nabídka Kebab zobrazíte přístup k kontextovým akcím pro spuštění, například zastavení aktivního spuštění nebo odstranění dokončeného spuštění.

Chcete-li změnit sloupce zobrazené v zobrazení seznamu spuštění, klikněte a Ikona Nastavení vyberte nebo zrušte výběr sloupců.

Pokud chcete zobrazit podrobnosti o spuštění úlohy, klikněte na odkaz spuštění ve sloupci Čas zahájení v zobrazení seznamu spuštění. Pokud chcete zobrazit podrobnosti o posledním úspěšném spuštění této úlohy, klikněte na Přejít na nejnovější úspěšné spuštění.

Azure Databricks udržuje historii vaší úlohy po dobu až 60 dnů. Pokud potřebujete zachovat spuštění úloh, Databricks doporučuje exportovat výsledky před vypršením jejich platnosti. Další informace najdete v tématu Export výsledků spuštění úlohy.

Zobrazení podrobností o spuštění úlohy

Stránka podrobností o spuštění úlohy obsahuje výstup úlohy a odkazy na protokoly, včetně informací o úspěchu nebo selhání jednotlivých úloh při spuštění úlohy. K podrobnostem o spuštění úlohy se dostanete z karty Spuštění úlohy. Pokud chcete zobrazit podrobnosti spuštění úlohy na kartě Spuštění , klikněte na odkaz pro spuštění ve sloupci Čas zahájení v zobrazení seznamu spuštění. Chcete-li se vrátit na kartu Spuštění úlohy, klikněte na hodnotu ID úlohy.

Pokud úloha obsahuje více úkolů, kliknutím na úlohu zobrazíte podrobnosti o spuštění úkolu, včetně:

  • cluster, který spustil úlohu
    • Uživatelské rozhraní Sparku pro úlohu
    • protokoly pro úlohu
    • metriky pro úkol

Kliknutím na hodnotu ID úlohy se vrátíte na kartu Spuštění úlohy.

Jak Azure Databricks určuje stav spuštění úlohy?

Azure Databricks určuje, jestli bylo spuštění úlohy úspěšné na základě výsledku úkolů typu list úlohy. Listový úkol je úkol, který nemá žádné podřízené závislosti. Spuštění úlohy může mít jeden ze tří výsledků:

  • Úspěšné: Všechny úkoly byly úspěšné.
  • Úspěšné s chybami: Některé úlohy selhaly, ale všechny úkoly typu list byly úspěšné.
  • Nezdařilo se: Jeden nebo více úkolů typu list se nezdařilo.

Zobrazení metrik pro úlohy streamování

Důležitý

Pozorovatelnost streamování pro úlohy Databricks je ve verzi Public Preview.

Při zobrazení podrobností o spuštění úlohy můžete získat data o streamovaných úlohách s metrikami pozorovatelnosti streamování v uživatelském rozhraní úloh. Mezi tyto metriky patří sekundy backlogu, bajty backlogu, záznamy backlogu a soubory backlogu pro zdroje podporované strukturovaným streamováním Sparku, včetně Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub a tabulek Delta. Metriky se zobrazují jako grafy v pravém podokně, když zobrazíte podrobnosti o běhu úkolu. Metriky zobrazené v jednotlivých grafech jsou maximální hodnoty agregované po minutách a můžou zahrnovat až předchozí 48 hodin.

Každý zdroj streamování podporuje pouze konkrétní metriky. Metriky, které zdroj streamování nepodporuje, nejsou k dispozici pro zobrazení v uživatelském rozhraní. Následující tabulka uvádí metriky dostupné pro podporované zdroje streamování:

zdroj bajty backlogu záznamy nevyřízených úkolů sekundy backlogu backlogové soubory
Kafka
Kineze
Delta
Automatický zavaděč
Google Pub/Sub

Můžete také zadat prahové hodnoty pro každou metriku streamování a nakonfigurovat oznámení, pokud datový proud překročí prahovou hodnotu během spuštění úlohy. Viz Konfigurace oznámení pro pomalé úlohy.

Zobrazení metrik streamování pro spuštění úlohy, která streamuje data z některého z podporovaných zdrojů strukturovaného streamování:

  1. Na stránce Podrobnosti o spuštění úlohy klikněte na úlohu, pro kterou chcete zobrazit metriky.
  2. Klikněte na kartu Metriky v podokně Spuštění úlohy.
  3. Pokud chcete otevřít graf metriky, klikněte na pravou šipku vedle názvu metriky.
  4. Pokud chcete zobrazit metriky pro konkrétní datový proud, zadejte ID datového proudu do textového pole Filtrovat podle stream_id. ID streamu najdete ve výstupu pro běh úlohy.
  5. Pokud chcete změnit časové období pro grafy metrik, použijte rozevírací nabídku času.
  6. Chcete-li procházet datové proudy, když běh obsahuje více než deset proudů, klikněte na Další nebo Předchozí.

Omezení pozorovatelnosti streamování

  • Metriky se aktualizují každou minutu, pokud spuštění nemá více než čtyři streamy. Pokud má běh více než čtyři streamy, metriky se aktualizují každých pět minut.
  • Metriky se shromažďují pouze pro prvních padesát datových proudů při každém spuštění.

Zobrazení historie spuštění úlohy

Zobrazení historie spuštění úlohy, včetně úspěšných a neúspěšných spuštění:

  1. Klikněte na úkol na stránce s podrobnostmi o spuštění úlohy. Zobrazí se stránka s podrobnostmi o spuštění úlohy.
  2. V rozevírací nabídce historie spuštění vyberte spuštění úlohy.

Zobrazení historie spuštění úlohy pro úlohu For each

Přístup k historii For each spuštění úlohy je stejný jako standardní úloha úloh Azure Databricks. Na stránce podrobností o spuštění úlohy nebo na odpovídající buňce v maticovém zobrazení můžete kliknout na For eachuzel úkolu. Na rozdíl od standardní úlohy se však podrobnosti o spuštění úkolu For each zobrazí jako tabulka iterací vnořené úlohy.

Pokud chcete zobrazit pouze neúspěšné iterace, klikněte na pouze neúspěšné iterace.

Pokud chcete zobrazit výstup iterace, klikněte na počáteční nebokoncové hodnoty iterace.

Zobrazení nedávných spuštění úloh

Můžete zobrazit seznam aktuálně spuštěných a nedávno dokončených spuštění pro všechny úlohy v pracovním prostoru, ke kterému máte přístup, včetně spuštění spuštěných externími orchestračními nástroji, jako je Apache Airflow nebo Azure Data Factory. Zobrazení seznamu posledních spuštění úloh:

  1. Na bočním panelu klikněte na Ikona Pracovních postupůPracovní postupy.
  2. Kliknutím na kartu Spuštění úlohy zobrazte seznam spuštění úloh.

Graf počtu dokončených spuštění zobrazuje počet dokončených spuštění úloh za posledních 48 hodin. Ve výchozím nastavení graf zobrazuje neúspěšná, přeskočená a úspěšná spuštění úlohy. Graf můžete také filtrovat tak, aby zobrazoval konkrétní stavy spuštění nebo omezil graf na konkrétní časový rozsah. Karta Spuštění úlohy obsahuje také tabulku spuštění úloh za posledních 67 dnů. Ve výchozím nastavení obsahuje tabulka podrobnosti o neúspěšných, přeskočených a úspěšných spuštěních úloh.

Poznámka:

Graf počet dokončených spuštění se zobrazí jenom po kliknutí na Položku Vlastník.

Počet dokončených spuštění můžete filtrovat podle stavu spuštění:

  • Pokud chcete graf aktualizovat tak, aby zobrazoval úlohy, které jsou aktuálně spuštěné nebo čekají na spuštění, klikněte na aktivní spuštění.
  • Pokud chcete graf aktualizovat tak, aby zobrazoval jenom dokončená spuštění, včetně neúspěšných, úspěšných a přeskočených spuštění, klikněte na Dokončená spuštění.
  • Pokud chcete graf aktualizovat tak, aby zobrazoval pouze úspěšně dokončená spuštění za posledních 48 hodin, klikněte na úspěšné spuštění.
  • Pokud chcete graf aktualizovat tak, aby zobrazoval jenom přeskočená spuštění, klikněte na Vynechaná spuštění. Spuštění se přeskočí, protože jste překročili maximální počet souběžných spuštění ve vašem pracovním prostoru nebo úloha překročila maximální počet souběžných spuštění určených konfigurací úlohy.
  • Pokud chcete graf aktualizovat tak, aby zobrazoval pouze dokončená spuštění v chybovém stavu, klikněte na neúspěšná spuštění.

Když kliknete na některé z tlačítek filtru, seznam spuštění v tabulce spuštění se také aktualizuje, aby se zobrazila pouze spuštění úloh, která odpovídají vybranému stavu.

Pokud chcete omezit časový rozsah zobrazený v grafu Počet dokončených spuštění, klikněte na graf a přetáhněte kurzor a vyberte časový rozsah. Graf a aktualizace tabulky spuštění tak, aby se zobrazila pouze z vybraného časového rozsahu.

Ve výchozím nastavení se zobrazí seznam spuštění v tabulce spuštění:

  • Čas spuštění.
  • Název úlohy přidružené ke spuštění.
  • Uživatelské jméno, které úloha spouští jako.
  • Jestli se spuštění aktivovalo podle plánu úlohy nebo požadavku rozhraní API, nebo se spustilo ručně.
  • Čas uplynulý pro aktuálně spuštěnou úlohu nebo celkovou dobu běhu dokončeného spuštění. Pokud doba trvání překročí nakonfigurovanou očekávanou dobu dokončení, zobrazí se upozornění.
  • Stav spuštění, buď Queued, , Pending, Running, SkippedSucceededFailedTerminating, , Terminated, , Internal Error, Timed Out, , Canceled, nebo . CancelingWaiting for Retry
  • Všechny parametry spuštění.
  • Kliknutím Nabídka Kebab zobrazíte přístup k kontextovým akcím pro spuštění, například zastavení aktivního spuštění nebo odstranění dokončeného spuštění.

Chcete-li změnit sloupce zobrazené v seznamu spuštění, klikněte a Ikona Nastavení vyberte nebo zrušte výběr sloupců.

Tabulka nejčastějších typů chyb zobrazuje seznam nejčastějších typů chyb z vybraného časového rozsahu, který umožňuje rychle zobrazit nejčastější příčiny problémů s úlohami ve vašem pracovním prostoru.

Pokud chcete zobrazit podrobnosti o spuštění úlohy, klikněte na odkaz ve sloupci Čas zahájení spuštění spuštění. Chcete-li zobrazit podrobnosti úlohy, klikněte na název úlohy ve sloupci Úloha .

Zobrazení informací o rodokmenu pro úlohu

Pokud je v pracovním prostoru povolen katalog Unity, můžete zobrazit informace o rodokmenu pro všechny tabulky katalogu Unity v pracovním postupu. Pokud jsou pro váš pracovní postup k dispozici informace o rodokmenu, zobrazí se odkaz s počtem nadřazených a podřízených tabulek na panelu Podrobností úlohy, panelu Podrobností o spuštění úlohy nebo panelu podrobností o spuštění úlohy pro spuštění úlohy. Kliknutím na odkaz zobrazíte seznam tabulek. Kliknutím na tabulku zobrazíte podrobné informace v Průzkumníku katalogu.

Zobrazení a spuštění úlohy vytvořené pomocí sady prostředků Databricks

Pomocí uživatelského rozhraní úloh Azure Databricks můžete zobrazit a spustit úlohy nasazené sadou prostředků Databricks. Ve výchozím nastavení jsou tyto úlohy v uživatelském rozhraní úloh jen pro čtení. Pokud chcete upravit úlohu nasazenou sadou, změňte konfigurační soubor sady a znovu ji nasaďte. Použití změn pouze u konfigurace sady zajišťuje, že zdrojové soubory sady vždy zaznamenávají aktuální konfiguraci úlohy.

Pokud ale musíte provést okamžité změny úlohy, můžete úlohu odpojit od konfigurace sady a povolit úpravy nastavení úlohy v uživatelském rozhraní. Chcete-li úlohu odpojit, klepněte na tlačítko Odpojit od zdroje. V dialogovém okně Odpojit od zdroje potvrďte kliknutím na Odpojit .

Všechny změny provedené v úloze v uživatelském rozhraní se na konfiguraci sady nepoužijí. Pokud chcete u sady použít změny, které provedete v uživatelském rozhraní, musíte konfiguraci sady aktualizovat ručně. Pokud chcete úlohu znovu připojit ke konfiguraci sady prostředků, znovu ji nasaďte pomocí sady.

Export výsledků spuštění úlohy

Výsledky spuštění poznámkového bloku a protokoly spuštění úloh můžete exportovat pro všechny typy úloh.

Export výsledků spuštění poznámkového bloku

Spuštění úloh můžete zachovat exportem výsledků. U spuštění úloh poznámkového bloku můžete exportovat vykreslený poznámkový blok, který je možné později importovat do pracovního prostoru Azure Databricks.

Export výsledků spuštění poznámkového bloku pro úlohu s jednou úlohou:

  1. Na stránce podrobností úlohy klikněte na odkaz Zobrazit podrobnosti pro spuštění ve sloupci Spustit v tabulce Dokončená spuštění (posledních 60 dnů).
  2. Klikněte na Exportovat do HTML.

Export výsledků spuštění poznámkového bloku pro úlohu s více úlohami:

  1. Na stránce podrobností úlohy klikněte na odkaz Zobrazit podrobnosti pro spuštění ve sloupci Spustit v tabulce Dokončená spuštění (posledních 60 dnů).
  2. Klikněte na úkol poznámkového bloku, který chcete exportovat.
  3. Klikněte na Exportovat do HTML.

Export protokolů spuštění úlohy

Můžete také exportovat protokoly pro spuštění úlohy. Úlohu můžete nastavit tak, aby automaticky doručila protokoly do DBFS prostřednictvím rozhraní API úloh. Prohlédněte si new_cluster.cluster_log_conf objekt v textu požadavku předaný operaci Vytvořit novou úlohu (POST /jobs/create) v rozhraní API úloh.