Koncepty Azure Databricks

Článek
03/05/2025

Tento článek představuje základní koncepty, kterým potřebujete porozumět, aby bylo možné efektivně používat Azure Databricks.

Účty a pracovní prostory

V Azure Databricks je pracovní prostor nasazením Azure Databricks v cloudu, které funguje jako prostředí pro váš tým pro přístup k prostředkům Databricks. Vaše organizace se může rozhodnout, že bude mít v závislosti na svých potřebách více pracovních prostorů nebo jenom jeden pracovní prostor.

Účet Azure Databricks představuje jednu entitu, která může obsahovat více pracovních prostorů. Účty, které mají povolený Unity Catalog, lze použít ke správě uživatelů a jejich přístupu k datům centrálně ve všech pracovních prostorech v účtu.

Fakturace: Jednotky Databricks (DBU)

Azure Databricks účtuje faktury na základě jednotek Databricks (DBU), což jsou jednotky schopností zpracování za hodinu na základě typu instance virtuálního počítače.

Podívejte se na stránku s cenami Azure Databricks.

Ověřování a autorizace

Tato část popisuje koncepty, které potřebujete vědět, když spravujete identity Azure Databricks a jejich přístup k prostředkům Azure Databricks.

Uživatel

Jedinečný jednotlivec, který má přístup k systému. Identity uživatelů jsou reprezentovány e-mailovými adresami. Viz Správa uživatelů.

Principál služby

Identita služby pro použití s úlohami, automatizovanými nástroji a systémy, jako jsou skripty, aplikace a platformy CI/CD. Služební zástupci jsou reprezentováni ID aplikace. Viz Správa služebních principálů.

Skupina

Kolekce identit. Skupiny zjednodušují správu identit, což usnadňuje přiřazování přístupu k pracovním prostorům, datům a dalším zabezpečitelným objektům. Všechny identity Databricks je možné přiřadit jako členy skupin. Viz Správa skupin.

Seznam řízení přístupu (ACL)

Seznam oprávnění připojených k pracovnímu prostoru, clusteru, úloze, tabulce nebo experimentu ACL určuje, kteří uživatelé nebo systémové procesy mají udělený přístup k objektům a jaké operace jsou na těchto předmětech povoleny. Každá položka v typickém seznamu ACL určuje předmět a operaci. Viz seznamy řízení přístupu (ACL).

Osobní přístupový token (PAT)

Osobní přístupový token je řetězec používaný pro ověřování volání rozhraní REST API, připojení technologických partnerů a dalších nástrojů. Viz ověřování osobních přístupových tokenů Azure Databricks.

Tokeny ID Microsoft Entra je možné použít také k ověření v rozhraní REST API.

Rozhraní Azure Databricks

Tato část popisuje rozhraní pro přístup k prostředkům v Azure Databricks.

Uživatelské rozhraní

Uživatelské rozhraní Azure Databricks je grafické rozhraní pro interakci s funkcemi, jako jsou složky pracovního prostoru a jejich obsažené objekty, datové objekty a výpočetní prostředky.

REST API

Rozhraní Databricks REST API poskytuje koncové body pro úpravy nebo vyžádání informací o účtu Azure Databricks a objektech pracovního prostoru. Viz referenční informace k účtu a referenční informace k pracovnímu prostoru.

SQL REST API

Rozhraní SQL REST API umožňuje automatizovat úlohy u objektů SQL. Viz SQL API.

Rozhraní příkazového řádku

Rozhraní příkazového řádku Databricks CLI je hostované na GitHubu. Rozhraní příkazového řádku je postavené na rozhraní REST API Databricks.

Správa dat

Tato část popisuje nástroje a logické objekty používané k uspořádání a řízení dat v Azure Databricks. Viz Databázové objekty v Azure Databricks.

Katalog Unity

Unity Catalog je jednotné řešení zásad správného řízení pro data a prostředky AI v Azure Databricks, které poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat napříč pracovními prostory Databricks. Podívejte se na Co je katalog Unity?.

Katalog

Katalogy jsou kontejner nejvyšší úrovně pro uspořádání a izolování dat v Azure Databricks. Katalogy můžete sdílet mezi pracovními prostory v rámci stejné oblasti a účtu. Viz Co jsou katalogy v Azure Databricks?.

Schéma

Schémata, označovaná také jako databáze, jsou obsažená v katalogu a poskytují podrobnější úroveň organizace. Obsahují databázové objekty a prostředky AI, jako jsou svazky, tabulky, funkce a modely. Podívejte se, co jsou schémata v Azure Databricks?

Stůl

Tabulky uspořádají a řídí přístup k strukturovaným datům. Dotazujete tabulky pomocí Apache Spark SQL a rozhraní Apache Spark API. Podívejte se na Co je tabulka?.

Zobrazit

Zobrazení je objekt jen pro čtení odvozený z jedné nebo více tabulek a zobrazení. Zobrazení ukládají dotazy definované pro tabulky. Podívejte se na Co je to zobrazení?.

Objem

Svazky představují logický svazek úložiště v cloudovém objektovém úložišti a organizují a řídí přístup k netabulkovým datům. Databricks doporučuje používat svazky pro správu veškerého přístupu k ne tabulkovým datům v cloudovém úložišti objektů. Viz Co jsou svazky katalogu Unity?.

Tabulka Delta

Ve výchozím nastavení jsou všechny tabulky vytvořené v Azure Databricks tabulky Delta. Tabulky Delta jsou založeny na opensourcovém projektu Delta Lake– rozhraní pro vysoce výkonné úložiště tabulek ACID v cloudových úložištích objektů. Tabulka Delta ukládá data jako adresář souborů v cloudovém úložišti objektů a registruje metadata tabulek do metastoru v rámci katalogu a schématu.

Přečtěte si další informace o technologiích označených jako Delta.

Metastore

Katalog Unity poskytuje metastore na úrovni účtu, který registruje metadata o datech, umělé inteligenci a oprávněních k katalogům, schématům a tabulkám. Podívejte se na Metastores.

Azure Databricks poskytuje starší verzi úložiště Hive pro zákazníky, kteří ještě nepřijali katalog Unity. Viz Řízení přístupu k tabulce metastoru Hive (starší verze).

Průzkumník katalogu

Průzkumník katalogu umožňuje zkoumat a spravovat data a prostředky AI, včetně schémat (databází), tabulek, modelů, svazků (ne tabulkových dat), funkcí a registrovaných modelů ML. Můžete ho použít k vyhledání datových objektů a vlastníků, porozumění relacím dat mezi tabulkami a správě oprávnění a sdílení. Podívejte se na Co je to Průzkumník katalogu?.

Kořenový adresář DBFS

Důležité

Ukládání a přístup k datům pomocí kořenového adresáře DBFS nebo připojení DBFS je zastaralý vzor, který databricks nedoporučuje. Místo toho databricks doporučuje ke správě přístupu ke všem datům používat katalog Unity. Podívejte se na Co je katalog Unity?.

Kořen DBFS je standardně umístění úložiště dostupné všem uživatelům. Podívejte se, co je DBFS?

Správa výpočtů

Tato část popisuje koncepty, které potřebujete vědět, abyste mohli spouštět výpočty v Azure Databricks.

Klastr

Sada výpočetních prostředků a konfigurací, na kterých spouštíte poznámkové bloky a úlohy. Existují dva typy clusterů: všestranné a pracovní. Viz Výpočty.

Cluster pro všechny účely vytvoříte pomocí uživatelského rozhraní, rozhraní příkazového řádku nebo rozhraní REST API. Cluster pro obecné účely můžete ručně ukončit a restartovat. Takové clustery mohou být sdíleny mezi několika uživateli, kteří spolupracují na interaktivní analýze.
Plánovač úloh Azure Databricks vytvoří cluster úloh při spuštění úlohy v novém clusteru úloh a po dokončení úlohy cluster ukončí. Cluster úloh nelze restartovat.

Bazén

Sada nečinných instancí připravených k použití, které snižují dobu spuštění a automatického škálování clusteru. Když je cluster připojený k fondu, přidělí své ovladače a pracovní uzly z tohoto fondu. Podívejte se na referenční informace o konfiguraci fondu.

Pokud fond nemá dostatek nečinných prostředků pro přizpůsobení požadavku clusteru, fond se rozšíří přidělením nových instancí od poskytovatele instance. Po ukončení připojeného clusteru se instance, které používá, vrátí do fondu a dají se znovu použít jiným clusterem.

Runtime Databricks

Sada základních komponent, které běží na clusterech spravovaných službou Azure Databricks. Viz Výpočty. Azure Databricks má následující prostředí runtime:

Databricks Runtime zahrnuje Apache Spark, ale také přidává řadu komponent a aktualizací, které podstatně zlepšují použitelnost, výkon a zabezpečení analýz velkých objemů dat.
Databricks Runtime pro Machine Learning je založen na databricks Runtime a poskytuje předem připravenou infrastrukturu strojového učení, která je integrovaná se všemi funkcemi pracovního prostoru Azure Databricks. Obsahuje několik oblíbených knihoven, včetně TensorFlow, Keras, PyTorch a XGBoost.

Pracovní postupy

Uživatelské rozhraní pracovního prostoru Pracovních postupů poskytuje přístup k uživatelským rozhraním Úloh a DLT kanálů, což jsou nástroje, které vám umožňují orchestraci a plánování pracovních postupů.

Úlohy

Neinteraktivní mechanismus pro orchestraci a plánování poznámkových bloků, knihoven a dalších úloh. Viz : Přehled orchestrace na platformě Databricks

Potrubní systémy

Kanály DLT poskytují deklarativní architekturu pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. Zkontrolujte Co je DLT?.

Pracovní zátěž

Úloha je množství schopností zpracování potřebných k provedení úlohy nebo skupiny úkolů. Azure Databricks identifikuje dva typy pracovních zátěží: datové inženýrství (job) a datovou analytiku (všeobecný účel).

Úloha Přípravy dat (automatizovaná) běží v clusteru úloh, který pro každou úlohu vytvoří plánovač úloh Azure Databricks.
Analýza dat (interaktivní) běží na univerzálním clusteru. Interaktivní úlohy obvykle spouštějí příkazy v poznámkovém bloku Azure Databricks. Spuštění úlohy v existujícím clusteru pro všechny účely se ale považuje za interaktivní úlohu.

Kontext spuštění

Stav prostředí REPL (Read-Eval-Print loop) pro každý podporovaný programovací jazyk. Podporované jazyky jsou Python, R, Scala a SQL.

Příprava dat

Nástroje pro přípravu dat pomáhají spolupráci mezi datovými vědci, datovými inženýry, datovými analytiky a inženýry strojového učení.

Pracovní prostor

Pracovní prostor je prostředí pro přístup ke všem vašim prostředkům Azure Databricks. Pracovní prostor organizuje objekty (poznámkové bloky, knihovny, řídicí panely a experimenty) do složek a poskytuje přístup k datovým objektům a výpočetním prostředkům.

Notebook

Webové rozhraní pro vytváření pracovních postupů datových věd a strojového učení, které může obsahovat spouštěné příkazy, vizualizace a text vyprávění. Podívejte se na Úvod do poznámkových bloků Databricks.

Knihovna

Balíček kódu dostupný pro poznámkový blok nebo úlohu spuštěnou v clusteru. Moduly runtime Databricks obsahují mnoho knihoven a můžete také nahrát vlastní. Viz knihovny.

Složka Git (dříve Repos)

Složka, jejíž obsah je společně verzován synchronizací do vzdáleného úložiště Git. Složky Gitu Databricks se integrují s Gitem, aby poskytovaly správu zdrojového kódu a správy verzí pro vaše projekty.

AI a strojové učení

Databricks poskytuje integrované komplexní prostředí se spravovanými službami pro vývoj a nasazování aplikací umělé inteligence a strojového učení.

Mozaika AI

Název značky produktů a služeb od společnosti Databricks Mosaic AI Research, což je tým výzkumných pracovníků a techniků zodpovědných za největší převraty v oblasti generativní umělé inteligence. Produkty Mosaic AI zahrnují funkce ML a AI v Databricks. Viz Mosaic Research.

Výpočetní prostředí strojového učení

Databricks poskytuje prostředí Databricks Runtime pro Machine Learning, které automatizuje vytváření výpočetních prostředků pomocí předem vytvořené infrastruktury strojového učení a hlubokého učení, včetně nejběžnějších knihoven ML a DL. Má také integrovanou předem nakonfigurovanou podporu GPU, včetně ovladačů a podpůrných knihoven. Projděte si informace o nejnovějších vydáních modulu runtime v poznámkách k verzím a kompatibilitě Databricks Runtime.

Experiment

Kolekce běhů MLflow pro trénink modelu strojového učení. Viz Uspořádání trénovacích běhů pomocí experimentů MLflow.

Funkce

Funkce jsou důležitou součástí modelů ML. Úložiště funkcí umožňuje sdílení a zjišťování funkcí ve vaší organizaci a také zajišťuje, aby se pro trénování a odvozování modelů používal stejný výpočetní kód funkcí. Podívejte se na Inženýrství funkcí a nasazení.

Modely GenAI

Databricks podporuje zkoumání, vývoj a nasazení modelů generující umělé inteligence, včetně těchto:

AI hřiště, prostředí podobné chatu v pracovním prostoru, kde můžete testovat, dávat podněty a porovnávat LLM. Podívejte se na chat s LLMs a prototypy aplikací GenAI pomocí AI Playground.
Předdefinovaná sada nakonfigurovaných základních modelů, které lze dotazovat:
- Viz rozhraní API základního modelu s platbami za tokeny.
- Viz [Doporučeno] Nasazení základních modelů z katalogu Unity pro základní modely, které můžete obsluhovat jediným kliknutím.
Hostované LLM třetích stran, označované jako externí modely. Tyto modely se mají používat tak, jak jsou.
Možnosti přizpůsobení základního modelu pro optimalizaci jeho výkonu pro vaši konkrétní aplikaci (často označované jako jemné ladění). Viz vyladění základního modelu.

Rejstřík modelů

Databricks poskytuje hostované verze registru modelů MLflow v katalogu Unity. Modely zaregistrované v katalogu Unity dědí centralizované řízení přístupu, rodokmen a zjišťování a přístup mezi pracovními prostory. Viz Správa životního cyklu modelu vkatalogu Unity .

Služba pro modely

Mosaic AI Model Serving poskytuje jednotné rozhraní pro nasazování, správu a dotazování modelů AI. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace. Díky službě Rozhraní AI Pro obsluhu modelů systému Mosaic můžete nasadit vlastní modely, základní modely nebo modely třetích stran hostované mimo Databricks. Viz Nasazení modelů pomocí Mosaic AI Model Serving.

Datové sklady

Datové sklady odkazují na shromažďování a ukládání dat z více zdrojů, aby k němu bylo možné rychle přistupovat pro obchodní přehledy a vytváření sestav. Databricks SQL je soubor služeb, který přináší schopnosti a výkonnost datových skladů do vašich stávajících datových jezer. Podívejte se, co jsou datové sklady v Azure Databricks?

Dotaz

Dotaz je platný příkaz SQL, který umožňuje pracovat s daty. Dotazy můžete vytvářet pomocí editoru SQL na platformě nebo se připojit pomocí konektoru SQL, ovladače nebo rozhraní API. Další informace o práci s dotazy najdete v Accessu a správě uložených dotazů.

SQL Warehouse

Výpočetní prostředek, na kterém spouštíte dotazy SQL. Existují tři typy SQL Warehouse: Classic, Pro a Bezserverové. Azure Databricks doporučuje používat bezserverové sklady, pokud jsou k dispozici. Porovnání dostupných funkcí pro jednotlivé typy skladů najdete v tématu Typy SQL Warehouse.

Historie dotazů

Seznam spuštěných dotazů a jejich charakteristik výkonu Historie dotazů umožňuje monitorovat výkon dotazů, pomáhá identifikovat úzká místa a optimalizovat časy běhu dotazů. Viz historie dotazů.

Vizualizace

Grafická prezentace výsledku spuštění dotazu. Vizte Vizualizace v poznámkových blocích Databricks.

Řídicí panel

Prezentace vizualizací dat a komentáře Řídicí panely můžete použít k automatickému odesílání sestav komukoli ve vašem účtu Azure Databricks. Pomocí Nástroje Databricks Assistant můžete vytvářet vizualizace na základě výzev v přirozeném jazyce. Viz řídicí panely. Řídicí panel můžete vytvořit také z poznámkového bloku. Viz řídicí panely v poznámkových blocích.

Starší řídicí panely najdete v tématu Starší řídicí panely.