Sdílet prostřednictvím


Monitorování aktivity účtu pomocí systémových tabulek

Tento článek vysvětluje koncept systémových tabulek v Azure Databricks a zvýrazňuje prostředky, které můžete použít k využití dat systémových tabulek na maximum.

Co jsou systémové tabulky?

Systémové tabulky jsou analytické úložiště provozních dat vašeho účtu hostované na Azure Databricks, které najdete v katalogu system. Systémové tabulky se dají použít pro historickou pozorovatelnost v rámci vašeho účtu.

Poznámka:

Dokumentaci k system.information_schemanaleznete v tématu Informační schéma.

Požadavky

  • Pokud chcete získat přístup k systémovým tabulkám, musí být váš pracovní prostor povolený pro katalog Unity. Další informace naleznete v tématu Povolení schémat systémových tabulek.

  • Systémové tabulky nejsou dostupné v následujících oblastech:

    • Oblasti Azure Čína
    • Oblasti Azure Government
    • Západ Indie
    • Švýcarsko – západ

Které systémové tabulky jsou k dispozici?

Azure Databricks v současné době hostuje následující systémové tabulky:

Stůl Popis Location Podporuje streamování. Období bezplatného uchovávání Zahrnuje globální nebo regionální data.
Protokoly auditu (Public Preview) Zahrnuje záznamy pro všechny události auditu z pracovních prostorů ve vaší oblasti. Seznam dostupných událostí auditu najdete v tématu Referenční informace k diagnostickým protokolům. system.access.audit Ano 365 dní Regionální pro události na úrovni pracovního prostoru. Globální pro události na úrovni účtu.
rodokmen tabulky (Public Preview) Obsahuje záznam pro každou událost související s čtením nebo zápisem do tabulky nebo cesty v katalogu Unity. system.access.table_lineage Ano 365 dní Regionální
Linie sloupce (Veřejný náhled) Obsahuje záznam pro každou událost čtení nebo zápisu ve sloupci katalogu Unity (ale neobsahuje události, které nemají zdroj). system.access.column_lineage Ano 365 dní Regionální
Fakturovatelné využití Zahrnuje záznamy pro veškeré fakturovatelné využití v rámci vašeho účtu. system.billing.usage Ano 365 dní Globální
Ceny Historický protokol cen skladové položky. Záznam se přidá pokaždé, když dojde ke změně ceny skladové položky. system.billing.list_prices No Bez omezení Globální
Clustery (Public Preview) Pomalu se měnící tabulka dimenzí, která obsahuje úplnou historii konfigurací výpočetních prostředků v průběhu času pro jakýkoli cluster. system.compute.clusters Ano 365 dní Regionální
Časová osa uzlu (Public Preview) Zachycuje metriky využití výpočetních prostředků pro všechny účely a úlohy. system.compute.node_timeline Ano 30 dní Regionální
Typy uzlů (Public Preview) Zaznamenává aktuálně dostupné typy uzlů pomocí základních informací o hardwaru. system.compute.node_types No Regionální
SQL Warehouses (Public Preview) Obsahuje úplnou historii konfigurací v průběhu času pro libovolný SQL Warehouse. system.compute.warehouses Ano 365 dní Regionální
Události SQL Warehouse (Public Preview) Zaznamenává události související se sklady SQL. Například spuštění, zastavení, spuštění, vertikální navýšení nebo snížení kapacity. system.compute.warehouse_events Ano 365 dní Regionální
Úlohy (Public Preview) Sleduje všechny úlohy vytvořené v účtu. system.lakeflow.jobs Ano 365 dní Regionální
Úlohy úlohy (Public Preview) Sleduje všechny úlohy úlohy, které běží v účtu. system.lakeflow.job_tasks Ano 365 dní Regionální
Časová osa spuštění úlohy (Public Preview) Sleduje časy spuštění a ukončení úlohy. system.lakeflow.

job_run_timeline
Ano 365 dní Regionální
Časová osa úkolu úlohy (Public Preview) Sleduje počáteční a koncové časy a výpočetní prostředky používané pro spuštění úloh. system.lakeflow.

job_task_run_timeline
Ano 365 dní Regionální
Události trychtýře Marketplace (Public Preview) Zahrnuje dojmy uživatelů a trychtýřová data pro vaše výpisy. system.marketplace.listing_

funnel_events
Ano 365 dní Regionální
Přístup k výpisu z Marketplace (Public Preview) Zahrnuje informace o spotřebiteli týkající se dokončených žádostí o data nebo událostí získání dat či na vašich výpisech. system.marketplace.listing_

access_events
Ano 365 dní Regionální
Prediktivní optimalizace (Public Preview) Sleduje historii operací funkce prediktivní optimalizace. system.storage.predictive_

optimization_operations_history
No 180 dní Regionální
Události Databricks Assistantu (Public Preview) Sleduje zprávy uživatelů odeslané asistentovi Databricks. system.access.assistant_events No 365 dní Regionální
Historie dotazů (Public Preview) Zaznamenává záznamy pro všechny dotazy spuštěné ve službě SQL Warehouse a bezserverové výpočetní prostředky pro poznámkové bloky a úlohy. system.query.history No 90 dní Regionální
Události čisté místnosti (Public Preview) Zaznamenává události související s čistými místnostmi. system.access.clean_room_events Ano 365 dní Regionální
Model obsluhující využití koncových bodů (Public Preview) Zaznamenává počty tokenů pro každý požadavek na koncový bod obsluhující model a jeho odpovědi. Pokud chcete zaznamenat využití koncového bodu v této tabulce, musíte povolit sledování využití na obsluhovacím koncovém bodu. system.serving.endpoint_usage. Ano 90 dní Regionální
Model obsluhující data koncových bodů (Public Preview) Tabulka dimenzí, která se pomalu mění a která ukládá metadata pro každý použitý základní model v koncovém bodu nasazení modelu. system.serving.served_entities Ano 365 dní Regionální
události přístupu k síti (Veřejná ukázka) Tabulka, která zaznamenává událost při každém odepření přístupu k internetu z vašeho účtu. system.access.outbound_network Ano 365 dní Regionální

Fakturovatelné tabulky využití a cen se dají používat zdarma. Tabulky ve verzi Public Preview se také můžou používat během verze Preview, ale v budoucnu se vám můžou účtovat poplatky.

Poznámka:

Kromě výše uvedených systémových tabulek se ve vašem účtu můžou zobrazit i jiné systémové tabulky. Tyto tabulky jsou aktuálně v privátní verzi Preview a ve výchozím nastavení jsou prázdné. Pokud chcete použít některou z těchto tabulek, obraťte se prosím na svůj tým účtů Databricks.

Povolení schémat systémových tabulek

Vzhledem k tomu, že systémové tabulky se řídí katalogem Unity, musíte mít v účtu alespoň jeden pracovní prostor s podporou katalogu Unity, abyste povolili systémové tabulky a měli k němu přístup. Systémové tabulky zahrnují data ze všech pracovních prostorů ve vašem účtu, ale dají se k nim přistupovat jenom z pracovního prostoru s podporou katalogu Unity.

Systémové tabulky jsou povolené na úrovni schématu. Pokud povolíte systémové schéma, povolíte všechny tabulky v rámci daného schématu. Po vydání nových schémat musí správce účtu schéma povolit ručně.

Systémové tabulky musí povolit správce účtu. Systémové tabulky můžete povolit pomocí příkazů v rozhraní příkazového řádku Databricks nebo pomocí rozhraní SystemSchemas API.

Poznámka:

Schéma billing je ve výchozím nastavení povolené. Ostatní schémata musí být povolena ručně.

Výpis dostupných systémových schémat

Pomocí následujícího příkazu curl zobrazte seznam dostupných systémových schémat:

curl -v -X GET -H "Authorization: Bearer <PAT Token>" "https://adb-<xxx>.azuredatabricks.net/api/2.0/unity-catalog/metastores/<metastore-id>/systemschemas"

Následuje příklad výstupu GET příkazu:

{"schemas":[{"schema":"access","state":"<AVAILABLE OR EnableCompleted>"},{"schema":"billing","state":"<AVAILABLE OR EnableCompleted>"},{"schema":"information_schema","state":"<AVAILABLE OR EnableCompleted>"}]}

state: AVAILABLE: Systémové schéma je k dispozici, ale dosud nebylo povoleno.

state: EnableCompleted: Povolili jste systémové schéma a je viditelné v Průzkumníku katalogu.

Povolte systémové schéma

K povolení systémového schématu použijte následující příkaz curl:

curl -v -X PUT -H "Authorization: Bearer <PAT Token>" "https://adb-<xxx>.azuredatabricks.net/api/2.0/unity-catalog/metastores/<metastore-id>/systemschemas/<SCHEMA_NAME>"

Pokud je schéma systému úspěšně povolené, vrátí se kód výsledku 200.

Pokud se pokusíte znovu povolit systémové schéma, vrátí se následující: "error_code":"SCHEMA_ALREADY_EXISTS","message":"Schema <schema-name> already exists".

Zakázání systémového schématu

K zakázání systémového schématu použijte následující příkaz curl:

curl -v -X DELETE -H "Authorization: Bearer <PAT Token>" "https://adb-<xxx>.azuredatabricks.net/api/2.0/unity-catalog/metastores/<metastore-id>/systemschemas/<SCHEMA_NAME>"

Udělení přístupu k systémovým tabulkám

Přístup k systémovým tabulkám se řídí katalogem Unity. K těmto systémovým schématům ve výchozím nastavení nemá přístup žádní uživatelé. Pokud chcete udělit přístup, musí uživatel, který je správcem metastoru i správcem účtu, udělit USE a SELECT oprávnění k systémovým schématům. Viz Správa oprávnění v katalogu Unity.

Systémové tabulky jsou jen pro čtení a nelze je upravovat.

Poznámka:

Pokud byl váš účet vytvořen po 9. listopadu 2023, možná ve výchozím nastavení nemáte správce metastoru. Další informace najdete v tématu Nastavení a správakatalogu Unity .

Obsahují systémové tabulky data pro všechny pracovní prostory ve vašem účtu?

Systémové tabulky obsahují provozní data pro všechny pracovní prostory ve vašem účtu nasazených ve stejné cloudové oblasti. Tabulky fakturačního systému obsahují data pro celý účet.

I když k systémovým tabulkám lze přistupovat pouze prostřednictvím pracovního prostoru Katalogu Unity, tabulky také obsahují provozní data pro pracovní prostory jiného než Unity Catalog ve vašem účtu.

Kde jsou uložená data systémových tabulek?

Data systémových tabulek vašeho účtu se ukládají do účtu úložiště hostovaného v Azure Databricks ve stejné oblasti jako metastore. Data se s vámi bezpečně sdílí pomocí rozdílového sdílení.

Každá tabulka má volnou dobu uchovávání dat. Informace o prodloužení doby uchovávání získáte od týmu účtu Azure Databricks.

Kde jsou systémové tabulky umístěné v Průzkumníku katalogu?

Systémové tabulky ve vašem účtu se nacházejí v katalogu s názvem system, který je součástí každého metastoru katalogu Unity. V katalogu system uvidíte schémata, jako jsou access a billing, které obsahují systémové tabulky.

Úvahy o tabulkách systémů streamování

Azure Databricks používá funkci Delta Sharing ke sdílení dat systémových tabulek se zákazníky. Při streamování pomocí rozdílového sdílení mějte na paměti následující aspekty:

  • Pokud používáte streamování se systémovými tabulkami, nastavte možnost skipChangeCommits na true. Tím se zajistí, že úloha streamování nebude narušena odstraněním v systémových tabulkách. Viz Ignorovat aktualizace a odstranění.
  • Trigger.AvailableNow není podporováno streamováním rozdílového sdílení. Převede se na Trigger.Once.

Pokud ve své úloze streamování použijete trigger a zjistíte, že nedohání nejnovější verzi systémové tabulky, Databricks doporučuje zvýšit plánovanou frekvenci úlohy.

Čtení přírůstkových změn ze streamovaných systémových tabulek

spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")

Známé problémy

  • V současné době není podpora pro monitorování v reálném čase. Data se aktualizují v průběhu dne. Pokud se protokol nedávné události nezobrazuje, zkuste to později.

  • Schéma systémové tabulky __internal_logging se používá k podpoře protokolování datové části pomocí tabulek odvozování s podporou brány AI pro externí modely a úlohy zřízené propustnosti. Toto schéma je viditelné správcům účtů, ale nelze ho povolit a nemělo by se používat pro pracovní postupy zákazníků.

  • Chcete-li povolit systémové tabulky, možná bude nutné udělit síťový přístup ke koncovému bodu úložiště blob systémových tabulek. Pokud chcete zobrazit seznam úložných koncových bodů systémových tabulek pro každou oblast, přečtěte si IP adresy koncových bodů úložiště.

  • Systémová schémata system.operational_data a system.lineage jsou zastaralá a budou obsahovat prázdné tabulky.