Čtení informací o stavu strukturovaného streamování
Ve službě Databricks Runtime 14.3 LTS a vyšší na výpočetních prostředcích nakonfigurovaných pomocí vyhrazeného režimu přístupu nebo bez izolace můžete k dotazování dat a metadat stavu strukturovaného streamování použít operace datového rámce nebo funkce tabulek SQL. Pomocí těchto funkcí můžete sledovat informace o stavu stavových dotazů strukturovaného streamování, které můžou být užitečné pro monitorování a ladění.
Abyste mohli dotazovat stavová data nebo metadata, musíte mít přístup ke čtení cesty ke kontrolnímu bodu dotazu streamování. Funkce popsané v tomto článku poskytují přístup jen pro čtení k datům a metadatům stavu. K dotazování informací o stavu můžete použít pouze sémantiku dávkového čtení.
Poznámka:
Nelze dotazovat informace o stavu pro kanály DLT, streamované tabulky nebo materializovaná zobrazení. Informace o stavu nemůžete dotazovat pomocí výpočetních prostředků bez serveru nebo výpočetních prostředků nakonfigurovaných pomocí standardního režimu přístupu.
Čtení úložiště stavu strukturovaného streamování
Číst můžete informace o úložišti stavu pro strukturované streamování dotazů spuštěné v jakémkoli podporovaném modulu Databricks Runtime. Použijte následující syntax:
Python
df = (spark.read
.format("statestore")
.load("/checkpoint/path"))
SQL
SELECT * FROM read_statestore('/checkpoint/path')
Podporují se následující volitelné konfigurace:
Možnost | Typ | Výchozí hodnota | Popis |
---|---|---|---|
batchId |
Dlouhý | nejnovější ID dávky | Představuje cílovou dávku, ze které se má číst. Tuto možnost zadejte, pokud chcete dotazovat informace o stavu pro dřívější stav dotazu. Dávka musí být komitována, ale ještě není vyčištěna. |
operatorId |
Dlouhý | 0 | Představuje cílový operátor pro čtení. Tato možnost se používá, když dotaz používá více stavových operátorů. |
storeName |
Řetězec | "VÝCHOZÍ" | Představuje název cílového úložiště stavu, z kterého se má číst. Tato možnost se používá, když stavový operátor používá více instancí úložiště stavů. Buď storeName , nebo joinSide musí být zadány pro spojení stream-steam, ale ne oba. |
joinSide |
Řetězec ("vlevo" nebo "vpravo") | Představuje cílovou stranu, ze které se má číst. Tato možnost se používá, když uživatelé chtějí číst stav z připojení streamu. |
Vrácená data mají následující schéma:
Sloupec | Typ | Popis |
---|---|---|
key |
Struktura (další typ odvozený ze stavového klíče) | Klíč pro záznam stavového operátoru v kontrolním bodu stavu. |
value |
Struktura (další typ odvozený z hodnoty stavu) | Hodnota pro záznam stavového operátoru v kontrolním bodě stavu. |
partition_id |
Integer | Část stavového kontrolního bodu, která obsahuje záznam stavového operátoru. |
Čtení metadat stavu strukturovaného streamování
Důležité
Pokud chcete zaznamenávat metadata stavu, musíte spouštět streamované dotazy na Databricks Runtime 14.2 nebo vyšší. Soubory metadat stavu neporušují zpětnou kompatibilitu. Pokud se rozhodnete spustit streamovací dotaz na Databricks Runtime 14.1 nebo nižší, existující soubory metadat stavu se ignorují a nebudou zapsány žádné nové soubory metadat stavu.
Můžete číst informace o metadatech stavu pro dotazy strukturovaného streamování spuštěné ve službě Databricks Runtime 14.2 nebo vyšší. Použijte následující syntax:
Python
df = (spark.read
.format("state-metadata")
.load("<checkpointLocation>"))
SQL
SELECT * FROM read_state_metadata('/checkpoint/path')
Vrácená data mají následující schéma:
Sloupec | Typ | Popis |
---|---|---|
operatorId |
Celé číslo | Celočíselné ID stavového operátoru streamování. |
operatorName |
Celé číslo | Název stavového streamovacího operátoru |
stateStoreName |
Řetězec | Název státního úložiště operátora. |
numPartitions |
Celé číslo | Počet oddílů stavového úložiště |
minBatchId |
Dlouhé | Minimální ID dávky, které je k dispozici pro dotazování stavu. |
maxBatchId |
Dlouhé | Maximální id dávky, které je k dispozici pro dotazování stavu. |
Poznámka:
Hodnoty ID dávky dané minBatchId
a maxBatchId
odrážejí stav v okamžiku zápisu kontrolního bodu. Staré dávky se automaticky vyčistí pomocí mikrodávkového zpracování, takže poskytnutá hodnota není zaručeno, že bude stále dostupná.