Sdílet prostřednictvím


Koncepty Azure Databricks

Tento článek představuje základní koncepty, kterým potřebujete porozumět, aby bylo možné efektivně používat Azure Databricks.

Účty a pracovní prostory

V Azure Databricks je pracovní prostor nasazením Azure Databricks v cloudu, které funguje jako prostředí pro váš tým pro přístup k prostředkům Databricks. Vaše organizace se může rozhodnout, že bude mít v závislosti na svých potřebách více pracovních prostorů nebo jenom jeden pracovní prostor.

Účet Azure Databricks představuje jednu entitu, která může obsahovat více pracovních prostorů. Účty, které mají povolený Unity Catalog, lze použít ke správě uživatelů a jejich přístupu k datům centrálně ve všech pracovních prostorech v účtu.

Fakturace: Jednotky Databricks (DBU)

Azure Databricks účtuje faktury na základě jednotek Databricks (DBU), což jsou jednotky schopností zpracování za hodinu na základě typu instance virtuálního počítače.

Podívejte se na stránku s cenami Azure Databricks.

Ověřování a autorizace

Tato část popisuje koncepty, které potřebujete vědět, když spravujete identity Azure Databricks a jejich přístup k prostředkům Azure Databricks.

Uživatelská

Jedinečný jednotlivec, který má přístup k systému. Identity uživatelů jsou reprezentovány e-mailovými adresami. Viz Správa uživatelů.

Instanční objekt

Identita služby pro použití s úlohami, automatizovanými nástroji a systémy, jako jsou skripty, aplikace a platformy CI/CD. Instanční objekty jsou reprezentovány ID aplikace. Viz Správa instančních objektů.

Seskupit

Kolekce identit. Skupiny zjednodušují správu identit, což usnadňuje přiřazování přístupu k pracovním prostorům, datům a dalším zabezpečitelným objektům. Všechny identity Databricks je možné přiřadit jako členy skupin. Viz Správa skupin.

Seznam řízení přístupu (ACL)

Seznam oprávnění připojených k pracovnímu prostoru, clusteru, úloze, tabulce nebo experimentu Seznam ACL určuje, kteří uživatelé nebo systémové procesy mají udělený přístup k objektům a jaké operace jsou pro prostředky povolené. Každá položka v typickém seznamu ACL určuje předmět a operaci. Viz seznamy řízení přístupu.

Token PAT (Personal Access Token)

Osobní přístupový token je řetězec používaný pro ověřování volání rozhraní REST API, technologických partnerů připojení a dalších nástrojů. Viz ověřování tokenů pat azure Databricks.

Tokeny ID Microsoft Entra je možné použít také k ověření v rozhraní REST API.

Rozhraní Azure Databricks

Tato část popisuje rozhraní pro přístup k prostředkům v Azure Databricks.

Uživatelské rozhraní

Uživatelské rozhraní Azure Databricks je grafické rozhraní pro interakci s funkcemi, jako jsou složky pracovního prostoru a jejich obsažené objekty, datové objekty a výpočetní prostředky.

REST API

Rozhraní Databricks REST API poskytuje koncové body pro úpravy nebo vyžádání informací o účtu Azure Databricks a objektech pracovního prostoru. Viz referenční informace k účtu a referenční informace k pracovnímu prostoru.

SQL REST API

Rozhraní SQL REST API umožňuje automatizovat úlohy u objektů SQL. Viz rozhraní SQL API.

Rozhraní příkazového řádku

Rozhraní příkazového řádku Databricks je hostované na GitHubu. Rozhraní příkazového řádku je postavené na rozhraní REST API Databricks.

Správa dat

Tato část popisuje nástroje a logické objekty používané k uspořádání a řízení dat v Azure Databricks. Viz Databázové objekty v Azure Databricks.

Katalog Unity

Unity Catalog je jednotné řešení zásad správného řízení pro data a prostředky AI v Azure Databricks, které poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat napříč pracovními prostory Databricks. Podívejte se na Co je katalog Unity?.

Katalog

Katalogy jsou kontejner nejvyšší úrovně pro uspořádání a izolování dat v Azure Databricks. Katalogy můžete sdílet mezi pracovními prostory v rámci stejné oblasti a účtu. Viz Co jsou katalogy v Azure Databricks?.

Schéma

Schémata, označovaná také jako databáze, jsou obsažená v katalogu a poskytují podrobnější úroveň organizace. Obsahují databázové objekty a prostředky AI, jako jsou svazky, tabulky, funkce a modely. Podívejte se, co jsou schémata v Azure Databricks?

Stůl

Tabulky uspořádají a řídí přístup k strukturovaným datům. Dotazujete tabulky pomocí Apache Spark SQL a rozhraní Apache Spark API. Viz Co jsou tabulky a zobrazení?.

Zobrazit

Zobrazení je objekt jen pro čtení odvozený z jedné nebo více tabulek a zobrazení. Zobrazení ukládají dotazy definované pro tabulky. Podívejte se , co je zobrazení?.

Objem

Svazky představují logický objem úložiště v umístění cloudového objektového úložiště a organizují a řídí přístup k netabulkovým datům. Databricks doporučuje používat svazky pro správu veškerého přístupu k ne tabulkovým datům v cloudovém úložišti objektů. Viz Co jsou svazky katalogu Unity?.

Tabulka Delta

Ve výchozím nastavení jsou všechny tabulky vytvořené v Azure Databricks tabulky Delta. Tabulky Delta jsou založeny na opensourcovém projektu Delta Lake– rozhraní pro vysoce výkonné úložiště tabulek ACID v cloudových úložištích objektů. Tabulka Delta ukládá data jako adresář souborů v cloudovém úložišti objektů a registruje metadata tabulek do metastoru v rámci katalogu a schématu.

Přečtěte si další informace o technologiích označených jako Delta.

Metastore

Katalog Unity poskytuje metastore na úrovni účtu, který registruje metadata o datech, umělé inteligenci a oprávněních k katalogům, schématům a tabulkám. Vizte metastore.

Azure Databricks poskytuje starší metastor Hive pro zákazníky, kteří katalog Unity nepřijali. Viz Řízení přístupu k tabulce metastoru Hive (starší verze).

Průzkumník katalogu

Průzkumník katalogu umožňuje zkoumat a spravovat data a prostředky AI, včetně schémat (databází), tabulek, modelů, svazků (ne tabulkových dat), funkcí a registrovaných modelů ML. Můžete ho použít k vyhledání datových objektů a vlastníků, porozumění relacím dat mezi tabulkami a správě oprávnění a sdílení. Podívejte se na Co je to Průzkumník katalogu?.

Kořenový adresář DBFS

Důležité

Ukládání a přístup k datům pomocí kořenového adresáře DBFS nebo připojení DBFS je zastaralý vzor, který databricks nedoporučuje. Místo toho databricks doporučuje ke správě přístupu ke všem datům používat katalog Unity. Podívejte se na Co je katalog Unity?.

Kořen DBFS je ve výchozím nastavení umístění úložiště dostupné všem uživatelům. Podívejte se, co je DBFS?

Správa výpočtů

Tato část popisuje koncepty, které potřebujete vědět, abyste mohli spouštět výpočty v Azure Databricks.

Cluster

Sada výpočetních prostředků a konfigurací, na kterých spouštíte poznámkové bloky a úlohy. Existují dva typy clusterů: účel a úloha. Viz Výpočty.

  • Cluster pro všechny účely vytvoříte pomocí uživatelského rozhraní, rozhraní příkazového řádku nebo rozhraní REST API. Cluster pro obecné účely můžete ručně ukončit a restartovat. Takové clustery mohou být sdíleny mezi několika uživateli, kteří spolupracují na interaktivní analýze.
  • Plánovač úloh Azure Databricks vytvoří cluster úloh při spuštění úlohy v novém clusteru úloh a po dokončení úlohy cluster ukončí. Cluster úloh nelze restartovat.

Fond

Sada nečinných instancí připravených k použití, které snižují dobu spuštění a automatického škálování clusteru. Když je cluster připojený k fondu, přidělí jeho ovladač a pracovní uzly z fondu. Viz referenční informace o konfiguraci fondu.

Pokud fond nemá dostatek nečinných prostředků pro přizpůsobení požadavku clusteru, fond se rozšíří přidělením nových instancí od poskytovatele instance. Po ukončení připojeného clusteru se instance, které používá, vrátí do fondu a dají se znovu použít jiným clusterem.

Modul runtime Databricks

Sada základních komponent, které běží na clusterech spravovaných službou Azure Databricks. Viz Výpočty. Azure Databricks má následující moduly runtime:

  • Databricks Runtime zahrnuje Apache Spark, ale také přidává řadu komponent a aktualizací, které podstatně zlepšují použitelnost, výkon a zabezpečení analýz velkých objemů dat.
  • Databricks Runtime pro Machine Learning je založen na databricks Runtime a poskytuje předem připravenou infrastrukturu strojového učení, která je integrovaná se všemi funkcemi pracovního prostoru Azure Databricks. Obsahuje několik oblíbených knihoven, včetně TensorFlow, Keras, PyTorch a XGBoost.

Pracovní postupy

Uživatelské rozhraní pracovního prostoru Pracovních postupů poskytuje položku uživatelského rozhraní úloh a uživatelských rozhraní kanálu DLT, což jsou nástroje, které umožňují orchestraci a plánování pracovních postupů.

Úlohy

Neinteraktivní mechanismus pro orchestraci a plánování poznámkových bloků, knihoven a dalších úloh. Viz : Přehled orchestrace na platformě Databricks

Pipelines

Kanály Delta Live Tables poskytují deklarativní architekturu pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. Podívejte se na Co jsou tabulky Delta Live?.

Úloha

Úloha je množství schopností zpracování potřebných k provedení úlohy nebo skupiny úkolů. Azure Databricks identifikuje dva typy úloh: přípravu dat (úlohu) a analýzu dat (účel).

  • Úloha Přípravy dat (automatizovaná) běží v clusteru úloh, který pro každou úlohu vytvoří plánovač úloh Azure Databricks.
  • Úloha Analýzy dat (interaktivní) běží v clusteru pro všechny účely. Interaktivní úlohy obvykle spouštějí příkazy v poznámkovém bloku Azure Databricks. Spuštění úlohy v existujícím clusteru pro všechny účely se ale považuje za interaktivní úlohu.

Kontext spuštění

Stav prostředí repl (read-eval-print loop) pro každý podporovaný programovací jazyk. Podporované jazyky jsou Python, R, Scala a SQL.

Příprava dat

Nástroje pro přípravu dat pomáhají spolupráci mezi datovými vědci, datovými inženýry, datovými analytiky a inženýry strojového učení.

Pracovní prostor

Pracovní prostor je prostředí pro přístup ke všem vašim prostředkům Azure Databricks. Pracovní prostor organizuje objekty (poznámkové bloky, knihovny, řídicí panely a experimenty) do složek a poskytuje přístup k datovým objektům a výpočetním prostředkům.

Poznámkový blok

Webové rozhraní pro vytváření pracovních postupů datových věd a strojového učení, které může obsahovat spouštěné příkazy, vizualizace a text vyprávění. Viz Úvod do poznámkových bloků Databricks.

Knihovna

Balíček kódu dostupný pro poznámkový blok nebo úlohu spuštěnou v clusteru. Moduly runtime Databricks obsahují mnoho knihoven a můžete také nahrát vlastní. Viz knihovny.

Složka Git (dříve Repos)

Složka, jejíž obsah spoluvlastňuje, jejich synchronizací do vzdáleného úložiště Git. Složky Gitu Databricks se integrují s Gitem, aby poskytovaly správu zdrojového kódu a správy verzí pro vaše projekty.

AI a strojové učení

Databricks poskytuje integrované komplexní prostředí se spravovanými službami pro vývoj a nasazování aplikací umělé inteligence a strojového učení.

Mozaika AI

Název značky produktů a služeb od společnosti Databricks Mosaic AI Research, což je tým výzkumných pracovníků a techniků zodpovědných za největší převraty v oblasti generativní umělé inteligence. K produktům s architekturou AI v Databricks patří funkce ML a AI. Viz Mojžíšův výzkum.

Modul runtime strojového učení

Databricks poskytuje prostředí Databricks Runtime pro Machine Learning, které automatizuje vytváření výpočetních prostředků pomocí předem vytvořené infrastruktury strojového učení a hlubokého učení, včetně nejběžnějších knihoven ML a DL. Má také integrovanou předem nakonfigurovanou podporu GPU, včetně ovladačů a podpůrných knihoven. Projděte si informace o nejnovějších verzích modulu runtime z verzí a kompatibility databricks Runtime.

Experiment

Kolekce MLflow běží pro trénování modelu strojového učení. Viz Uspořádání trénovacích běhů pomocí experimentů MLflow.

Funkce

Funkce jsou důležitou součástí modelů ML. Úložiště funkcí umožňuje sdílení a zjišťování funkcí ve vaší organizaci a také zajišťuje, aby se pro trénování a odvozování modelů používal stejný výpočetní kód funkcí. Viz Technická příprava a obsluha funkcí.

Modely GenAI

Databricks podporuje zkoumání, vývoj a nasazení modelů generující umělé inteligence, včetně těchto:

Registr modelu

Databricks poskytuje hostované verze registru modelů MLflow v katalogu Unity. Modely zaregistrované v katalogu Unity dědí centralizované řízení přístupu, rodokmen a zjišťování a přístup mezi pracovními prostory. Viz Správa životního cyklu modelu vkatalogu Unity .

Obsluha modelu

Služba Rozhraní AI pro vytváření modelů SI pro architekturu AI poskytuje jednotné rozhraní pro nasazování, řízení a dotazování modelů AI. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace. Díky službě Rozhraní AI Pro obsluhu modelů systému Mosaic můžete nasadit vlastní modely, základní modely nebo modely třetích stran hostované mimo Databricks. Viz Nasazení modelů pomocí Mosaic AI Model Serving.

Datové sklady

Datové sklady odkazují na shromažďování a ukládání dat z více zdrojů, aby k němu bylo možné rychle přistupovat pro obchodní přehledy a vytváření sestav. Databricks SQL je kolekce služeb, které přinášejí možnosti a výkon datových skladů do stávajících datových jezer. Podívejte se, co jsou datové sklady v Azure Databricks?

Dotaz

Dotaz je platný příkaz SQL, který umožňuje pracovat s daty. Dotazy můžete vytvářet pomocí editoru SQL na platformě nebo se připojit pomocí konektoru SQL, ovladače nebo rozhraní API. Další informace o práci s dotazy najdete v Accessu a správě uložených dotazů.

SQL Warehouse

Výpočetní prostředek, na kterém spouštíte dotazy SQL. Existují tři typy SQL Warehouse: Classic, Pro a Bezserverové. Azure Databricks doporučuje používat bezserverové sklady, pokud jsou k dispozici. Porovnání dostupných funkcí pro jednotlivé typy skladů najdete v tématu Typy SQL Warehouse.

Historie dotazů

Seznam spuštěných dotazů a jejich charakteristik výkonu Historie dotazů umožňuje monitorovat výkon dotazů, pomáhá identifikovat úzká místa a optimalizovat časy běhu dotazů. Viz historie dotazů.

Vizualizace

Grafická prezentace výsledku spuštění dotazu. Viz Vizualizace v poznámkových blocích Databricks.

Řídicí panel

Prezentace vizualizací dat a komentáře Řídicí panely můžete použít k automatickému odesílání sestav komukoli ve vašem účtu Azure Databricks. Pomocí Nástroje Databricks Assistant můžete vytvářet vizualizace na základě přirozených výzev jazyka. Viz řídicí panely. Řídicí panel můžete vytvořit také z poznámkového bloku. Zobrazení řídicích panelů v poznámkových blocích

Starší řídicí panely najdete v tématu Starší řídicí panely.

Důležité

  • Databricks doporučuje používat řídicí panely AI/BI (dříve řídicí panely Lakeview). Dřívější verze řídicích panelů, dříve označované jako řídicí panely SQL Databricks, se teď označují jako starší řídicí panely. Databricks nedoporučuje vytvářet nové starší řídicí panely.

Časový plán ukončení podpory:

  • 7. dubna 2025: Oficiální podpora starší verze řídicích panelů skončí. Vyřeší se pouze kritické problémy se zabezpečením a výpadky služeb.

  • 3. listopadu 2025: Databricks začne archivovat starší řídicí panely, ke kterým se během posledních šesti měsíců nepřistupovalo. Archivované řídicí panely už nebudou přístupné a archivní proces bude probíhat průběžně. Přístup k aktivně používaným řídicím panelům zůstane beze změny.

    Databricks bude spolupracovat se zákazníky na vývoji plánů migrace pro aktivní starší řídicí panely po 3. listopadu 2025.

  • Převeďte starší řídicí panely pomocí nástroje pro migraci nebo rozhraní REST API. Pokyny k použití integrovaného nástroje pro migraci najdete v tématu Klonování staršího řídicího panelu na řídicí panel AI/BI. Kurzy řídicího panelu najdete v kurzech k vytváření a správě řídicích panelů pomocí rozhraní REST API.