Koncepty Azure Databricks
Tento článek představuje základní koncepty, kterým potřebujete porozumět, aby bylo možné efektivně používat Azure Databricks.
Účty a pracovní prostory
V Azure Databricks je pracovní prostor nasazením Azure Databricks v cloudu, které funguje jako prostředí pro váš tým pro přístup k prostředkům Databricks. Vaše organizace se může rozhodnout, že bude mít v závislosti na svých potřebách více pracovních prostorů nebo jenom jeden pracovní prostor.
Účet Azure Databricks představuje jednu entitu, která může obsahovat více pracovních prostorů. Účty, které mají povolený Unity Catalog, lze použít ke správě uživatelů a jejich přístupu k datům centrálně ve všech pracovních prostorech v účtu.
Fakturace: Jednotky Databricks (DBU)
Azure Databricks účtuje faktury na základě jednotek Databricks (DBU), což jsou jednotky schopností zpracování za hodinu na základě typu instance virtuálního počítače.
Podívejte se na stránku s cenami Azure Databricks.
Ověřování a autorizace
Tato část popisuje koncepty, které potřebujete vědět, když spravujete identity Azure Databricks a jejich přístup k prostředkům Azure Databricks.
Uživatelská
Jedinečný jednotlivec, který má přístup k systému. Identity uživatelů jsou reprezentovány e-mailovými adresami. Viz Správa uživatelů.
Instanční objekt
Identita služby pro použití s úlohami, automatizovanými nástroji a systémy, jako jsou skripty, aplikace a platformy CI/CD. Instanční objekty jsou reprezentovány ID aplikace. Viz Správa instančních objektů.
Seskupit
Kolekce identit. Skupiny zjednodušují správu identit, což usnadňuje přiřazování přístupu k pracovním prostorům, datům a dalším zabezpečitelným objektům. Všechny identity Databricks je možné přiřadit jako členy skupin. Viz Správa skupin.
Seznam řízení přístupu (ACL)
Seznam oprávnění připojených k pracovnímu prostoru, clusteru, úloze, tabulce nebo experimentu Seznam ACL určuje, kteří uživatelé nebo systémové procesy mají udělený přístup k objektům a jaké operace jsou pro prostředky povolené. Každá položka v typickém seznamu ACL určuje předmět a operaci. Viz seznamy řízení přístupu.
Token PAT (Personal Access Token)
Osobní přístupový token je řetězec používaný pro ověřování volání rozhraní REST API, technologických partnerů připojení a dalších nástrojů. Viz ověřování tokenů pat azure Databricks.
Tokeny ID Microsoft Entra je možné použít také k ověření v rozhraní REST API.
Rozhraní Azure Databricks
Tato část popisuje rozhraní pro přístup k prostředkům v Azure Databricks.
Uživatelské rozhraní
Uživatelské rozhraní Azure Databricks je grafické rozhraní pro interakci s funkcemi, jako jsou složky pracovního prostoru a jejich obsažené objekty, datové objekty a výpočetní prostředky.
REST API
Rozhraní Databricks REST API poskytuje koncové body pro úpravy nebo vyžádání informací o účtu Azure Databricks a objektech pracovního prostoru. Viz referenční informace k účtu a referenční informace k pracovnímu prostoru.
SQL REST API
Rozhraní SQL REST API umožňuje automatizovat úlohy u objektů SQL. Viz rozhraní SQL API.
Rozhraní příkazového řádku
Rozhraní příkazového řádku Databricks je hostované na GitHubu. Rozhraní příkazového řádku je postavené na rozhraní REST API Databricks.
Správa dat
Tato část popisuje nástroje a logické objekty používané k uspořádání a řízení dat v Azure Databricks. Viz Databázové objekty v Azure Databricks.
Katalog Unity
Unity Catalog je jednotné řešení zásad správného řízení pro data a prostředky AI v Azure Databricks, které poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat napříč pracovními prostory Databricks. Podívejte se na Co je katalog Unity?.
Katalog
Katalogy jsou kontejner nejvyšší úrovně pro uspořádání a izolování dat v Azure Databricks. Katalogy můžete sdílet mezi pracovními prostory v rámci stejné oblasti a účtu. Viz Co jsou katalogy v Azure Databricks?.
Schéma
Schémata, označovaná také jako databáze, jsou obsažená v katalogu a poskytují podrobnější úroveň organizace. Obsahují databázové objekty a prostředky AI, jako jsou svazky, tabulky, funkce a modely. Podívejte se, co jsou schémata v Azure Databricks?
Stůl
Tabulky uspořádají a řídí přístup k strukturovaným datům. Dotazujete tabulky pomocí Apache Spark SQL a rozhraní Apache Spark API. Viz Co jsou tabulky a zobrazení?.
Zobrazit
Zobrazení je objekt jen pro čtení odvozený z jedné nebo více tabulek a zobrazení. Zobrazení ukládají dotazy definované pro tabulky. Podívejte se , co je zobrazení?.
Objem
Svazky představují logický objem úložiště v umístění cloudového objektového úložiště a organizují a řídí přístup k netabulkovým datům. Databricks doporučuje používat svazky pro správu veškerého přístupu k ne tabulkovým datům v cloudovém úložišti objektů. Viz Co jsou svazky katalogu Unity?.
Tabulka Delta
Ve výchozím nastavení jsou všechny tabulky vytvořené v Azure Databricks tabulky Delta. Tabulky Delta jsou založeny na opensourcovém projektu Delta Lake– rozhraní pro vysoce výkonné úložiště tabulek ACID v cloudových úložištích objektů. Tabulka Delta ukládá data jako adresář souborů v cloudovém úložišti objektů a registruje metadata tabulek do metastoru v rámci katalogu a schématu.
Přečtěte si další informace o technologiích označených jako Delta.
Metastore
Katalog Unity poskytuje metastore na úrovni účtu, který registruje metadata o datech, umělé inteligenci a oprávněních k katalogům, schématům a tabulkám. Vizte metastore.
Azure Databricks poskytuje starší metastor Hive pro zákazníky, kteří katalog Unity nepřijali. Viz Řízení přístupu k tabulce metastoru Hive (starší verze).
Průzkumník katalogu
Průzkumník katalogu umožňuje zkoumat a spravovat data a prostředky AI, včetně schémat (databází), tabulek, modelů, svazků (ne tabulkových dat), funkcí a registrovaných modelů ML. Můžete ho použít k vyhledání datových objektů a vlastníků, porozumění relacím dat mezi tabulkami a správě oprávnění a sdílení. Podívejte se na Co je to Průzkumník katalogu?.
Kořenový adresář DBFS
Důležité
Ukládání a přístup k datům pomocí kořenového adresáře DBFS nebo připojení DBFS je zastaralý vzor, který databricks nedoporučuje. Místo toho databricks doporučuje ke správě přístupu ke všem datům používat katalog Unity. Podívejte se na Co je katalog Unity?.
Kořen DBFS je ve výchozím nastavení umístění úložiště dostupné všem uživatelům. Podívejte se, co je DBFS?
Správa výpočtů
Tato část popisuje koncepty, které potřebujete vědět, abyste mohli spouštět výpočty v Azure Databricks.
Cluster
Sada výpočetních prostředků a konfigurací, na kterých spouštíte poznámkové bloky a úlohy. Existují dva typy clusterů: účel a úloha. Viz Výpočty.
- Cluster pro všechny účely vytvoříte pomocí uživatelského rozhraní, rozhraní příkazového řádku nebo rozhraní REST API. Cluster pro obecné účely můžete ručně ukončit a restartovat. Takové clustery mohou být sdíleny mezi několika uživateli, kteří spolupracují na interaktivní analýze.
- Plánovač úloh Azure Databricks vytvoří cluster úloh při spuštění úlohy v novém clusteru úloh a po dokončení úlohy cluster ukončí. Cluster úloh nelze restartovat.
Fond
Sada nečinných instancí připravených k použití, které snižují dobu spuštění a automatického škálování clusteru. Když je cluster připojený k fondu, přidělí jeho ovladač a pracovní uzly z fondu. Viz referenční informace o konfiguraci fondu.
Pokud fond nemá dostatek nečinných prostředků pro přizpůsobení požadavku clusteru, fond se rozšíří přidělením nových instancí od poskytovatele instance. Po ukončení připojeného clusteru se instance, které používá, vrátí do fondu a dají se znovu použít jiným clusterem.
Modul runtime Databricks
Sada základních komponent, které běží na clusterech spravovaných službou Azure Databricks. Viz Výpočty. Azure Databricks má následující moduly runtime:
- Databricks Runtime zahrnuje Apache Spark, ale také přidává řadu komponent a aktualizací, které podstatně zlepšují použitelnost, výkon a zabezpečení analýz velkých objemů dat.
- Databricks Runtime pro Machine Learning je založen na databricks Runtime a poskytuje předem připravenou infrastrukturu strojového učení, která je integrovaná se všemi funkcemi pracovního prostoru Azure Databricks. Obsahuje několik oblíbených knihoven, včetně TensorFlow, Keras, PyTorch a XGBoost.
Pracovní postupy
Uživatelské rozhraní pracovního prostoru Pracovních postupů poskytuje položku uživatelského rozhraní úloh a uživatelských rozhraní kanálu DLT, což jsou nástroje, které umožňují orchestraci a plánování pracovních postupů.
Úlohy
Neinteraktivní mechanismus pro orchestraci a plánování poznámkových bloků, knihoven a dalších úloh. Viz : Přehled orchestrace na platformě Databricks
Pipelines
Kanály Delta Live Tables poskytují deklarativní architekturu pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. Podívejte se na Co jsou tabulky Delta Live?.
Úloha
Úloha je množství schopností zpracování potřebných k provedení úlohy nebo skupiny úkolů. Azure Databricks identifikuje dva typy úloh: přípravu dat (úlohu) a analýzu dat (účel).
- Úloha Přípravy dat (automatizovaná) běží v clusteru úloh, který pro každou úlohu vytvoří plánovač úloh Azure Databricks.
- Úloha Analýzy dat (interaktivní) běží v clusteru pro všechny účely. Interaktivní úlohy obvykle spouštějí příkazy v poznámkovém bloku Azure Databricks. Spuštění úlohy v existujícím clusteru pro všechny účely se ale považuje za interaktivní úlohu.
Kontext spuštění
Stav prostředí repl (read-eval-print loop) pro každý podporovaný programovací jazyk. Podporované jazyky jsou Python, R, Scala a SQL.
Příprava dat
Nástroje pro přípravu dat pomáhají spolupráci mezi datovými vědci, datovými inženýry, datovými analytiky a inženýry strojového učení.
Pracovní prostor
Pracovní prostor je prostředí pro přístup ke všem vašim prostředkům Azure Databricks. Pracovní prostor organizuje objekty (poznámkové bloky, knihovny, řídicí panely a experimenty) do složek a poskytuje přístup k datovým objektům a výpočetním prostředkům.
Poznámkový blok
Webové rozhraní pro vytváření pracovních postupů datových věd a strojového učení, které může obsahovat spouštěné příkazy, vizualizace a text vyprávění. Viz Úvod do poznámkových bloků Databricks.
Knihovna
Balíček kódu dostupný pro poznámkový blok nebo úlohu spuštěnou v clusteru. Moduly runtime Databricks obsahují mnoho knihoven a můžete také nahrát vlastní. Viz knihovny.
Složka Git (dříve Repos)
Složka, jejíž obsah spoluvlastňuje, jejich synchronizací do vzdáleného úložiště Git. Složky Gitu Databricks se integrují s Gitem, aby poskytovaly správu zdrojového kódu a správy verzí pro vaše projekty.
AI a strojové učení
Databricks poskytuje integrované komplexní prostředí se spravovanými službami pro vývoj a nasazování aplikací umělé inteligence a strojového učení.
Mozaika AI
Název značky produktů a služeb od společnosti Databricks Mosaic AI Research, což je tým výzkumných pracovníků a techniků zodpovědných za největší převraty v oblasti generativní umělé inteligence. K produktům s architekturou AI v Databricks patří funkce ML a AI. Viz Mojžíšův výzkum.
Modul runtime strojového učení
Databricks poskytuje prostředí Databricks Runtime pro Machine Learning, které automatizuje vytváření výpočetních prostředků pomocí předem vytvořené infrastruktury strojového učení a hlubokého učení, včetně nejběžnějších knihoven ML a DL. Má také integrovanou předem nakonfigurovanou podporu GPU, včetně ovladačů a podpůrných knihoven. Projděte si informace o nejnovějších verzích modulu runtime z verzí a kompatibility databricks Runtime.
Experiment
Kolekce MLflow běží pro trénování modelu strojového učení. Viz Uspořádání trénovacích běhů pomocí experimentů MLflow.
Funkce
Funkce jsou důležitou součástí modelů ML. Úložiště funkcí umožňuje sdílení a zjišťování funkcí ve vaší organizaci a také zajišťuje, aby se pro trénování a odvozování modelů používal stejný výpočetní kód funkcí. Viz Technická příprava a obsluha funkcí.
Modely GenAI
Databricks podporuje zkoumání, vývoj a nasazení modelů generující umělé inteligence, včetně těchto:
- AI hřiště, prostředí podobné chatu v pracovním prostoru, kde můžete testovat, dávat podněty a porovnávat LLM. Podívejte se na chat s LLMs a prototypy aplikací GenAI pomocí AI Playground.
- Předdefinovaná sada nakonfigurovaných základních modelů, které lze dotazovat:
- Viz rozhraní API základního modelu s platbami za tokeny.
- Viz [Doporučeno] Nasazení základních modelů z katalogu Unity pro základní modely, které můžete obsluhovat jediným kliknutím.
- Hostované LLM třetích stran, označované jako externí modely. Tyto modely se mají používat tak, jak jsou.
- Možnosti přizpůsobení základního modelu pro optimalizaci jeho výkonu pro vaši konkrétní aplikaci (často označované jako jemné ladění). Viz vyladění základního modelu.
Registr modelu
Databricks poskytuje hostované verze registru modelů MLflow v katalogu Unity. Modely zaregistrované v katalogu Unity dědí centralizované řízení přístupu, rodokmen a zjišťování a přístup mezi pracovními prostory. Viz Správa životního cyklu modelu vkatalogu Unity .
Obsluha modelu
Služba Rozhraní AI pro vytváření modelů SI pro architekturu AI poskytuje jednotné rozhraní pro nasazování, řízení a dotazování modelů AI. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace. Díky službě Rozhraní AI Pro obsluhu modelů systému Mosaic můžete nasadit vlastní modely, základní modely nebo modely třetích stran hostované mimo Databricks. Viz Nasazení modelů pomocí Mosaic AI Model Serving.
Datové sklady
Datové sklady odkazují na shromažďování a ukládání dat z více zdrojů, aby k němu bylo možné rychle přistupovat pro obchodní přehledy a vytváření sestav. Databricks SQL je kolekce služeb, které přinášejí možnosti a výkon datových skladů do stávajících datových jezer. Podívejte se, co jsou datové sklady v Azure Databricks?
Dotaz
Dotaz je platný příkaz SQL, který umožňuje pracovat s daty. Dotazy můžete vytvářet pomocí editoru SQL na platformě nebo se připojit pomocí konektoru SQL, ovladače nebo rozhraní API. Další informace o práci s dotazy najdete v Accessu a správě uložených dotazů.
SQL Warehouse
Výpočetní prostředek, na kterém spouštíte dotazy SQL. Existují tři typy SQL Warehouse: Classic, Pro a Bezserverové. Azure Databricks doporučuje používat bezserverové sklady, pokud jsou k dispozici. Porovnání dostupných funkcí pro jednotlivé typy skladů najdete v tématu Typy SQL Warehouse.
Historie dotazů
Seznam spuštěných dotazů a jejich charakteristik výkonu Historie dotazů umožňuje monitorovat výkon dotazů, pomáhá identifikovat úzká místa a optimalizovat časy běhu dotazů. Viz historie dotazů.
Vizualizace
Grafická prezentace výsledku spuštění dotazu. Viz Vizualizace v poznámkových blocích Databricks.
Řídicí panel
Prezentace vizualizací dat a komentáře Řídicí panely můžete použít k automatickému odesílání sestav komukoli ve vašem účtu Azure Databricks. Pomocí Nástroje Databricks Assistant můžete vytvářet vizualizace na základě přirozených výzev jazyka. Viz řídicí panely. Řídicí panel můžete vytvořit také z poznámkového bloku. Zobrazení řídicích panelů v poznámkových blocích
Starší řídicí panely najdete v tématu Starší řídicí panely.
Důležité
- Databricks doporučuje používat řídicí panely AI/BI (dříve řídicí panely Lakeview). Dřívější verze řídicích panelů, dříve označované jako řídicí panely SQL Databricks, se teď označují jako starší řídicí panely. Databricks nedoporučuje vytvářet nové starší řídicí panely.
Časový plán ukončení podpory:
7. dubna 2025: Oficiální podpora starší verze řídicích panelů skončí. Vyřeší se pouze kritické problémy se zabezpečením a výpadky služeb.
3. listopadu 2025: Databricks začne archivovat starší řídicí panely, ke kterým se během posledních šesti měsíců nepřistupovalo. Archivované řídicí panely už nebudou přístupné a archivní proces bude probíhat průběžně. Přístup k aktivně používaným řídicím panelům zůstane beze změny.
Databricks bude spolupracovat se zákazníky na vývoji plánů migrace pro aktivní starší řídicí panely po 3. listopadu 2025.
Převeďte starší řídicí panely pomocí nástroje pro migraci nebo rozhraní REST API. Pokyny k použití integrovaného nástroje pro migraci najdete v tématu Klonování staršího řídicího panelu na řídicí panel AI/BI. Kurzy řídicího panelu najdete v kurzech k vytváření a správě řídicích panelů pomocí rozhraní REST API.