Sdílet prostřednictvím


Přehled Azure konfigurací Databricks

Azure Databricks je cloudová platforma, která kombinuje nejlepší funkce datového inženýrství a datové vědy. Umožňuje vám vytvářet, spravovat a analyzovat datové kanály pomocí Apache Spark, rychlého a škálovatelného open source frameworku pro zpracování velkých dat. Azure Databricks také poskytuje pracovní prostor pro spolupráci pro datové vědce a inženýry, aby mohli spolupracovat na strojové učení a projektech umělé inteligence.

Pokud pracujete ve státní správě nebo ve veřejném sektoru, tato dokumentace referenční architektury poskytuje názorné pokyny pro používání Azure Databricks se suverénní přistávací zónou nebo Azure nasazení přistávací zóny s základními politickými iniciativami suverenity použito.

Azure produktová dokumentace Databricks nabízí rozsáhlé informace o různých článcích. Tento dokument doplňuje dokumentaci tím, že vám poskytuje vybraná doporučení ohledně klíčových konceptů a možností konfigurace prostředí Azure Databricks.

Klíčové vlastnosti Azure Databricks

Azure Databricks má bohatou sadu funkcí, ale u této referenční architektury se zaměřujeme na její prvky infrastruktury. Azure Databricks nabízí:

  • Interaktivní poznámkové bloky: Pomocí poznámkových bloků můžete psát kód v Pythonu, Scale, SQL nebo R a vizualizovat výsledky pomocí tabulek a grafů. Sdílejte a komentujte poznámkové bloky se členy týmu a integrujte je s oblíbenými nástroji, jako je GitHub a Azure DevOps.

  • Možnosti výpočtu: Azure Databricks poskytuje různé možnosti výpočtu pro podporu datového inženýrství, datové vědy a datové analýzy. Mezi tyto možnosti patří škálovatelné výpočty bez serveru na vyžádání pro notebooky a úlohy, zajištěné výpočty pro univerzální analýzu a automatizované úlohy a sklady SQL pro provádění příkazů SQL. Fondy instancí nabízejí nečinné instance připravené k použití ke zkrácení doby spouštění a automatického škálování, čímž se zvyšuje efektivita v různých scénářích zpracování dat.

  • Integrace dat: Snadné připojení k různým zdrojům dat a cílům, jako je Azure Blob Storage, Azure Data Lake Storage, Azure SQL Database, Azure Synapse Analytics, Azure

  • strojové učení: Vytvářejte, trénujte a nasazujte modely strojové učení pomocí populárních frameworků jako TensorFlow, PyTorch, Scikit-learn a XGBoost. Použijte MLflow, open-source platformu pro správu životního cyklu strojové učení, ke sledování experimentů, protokolování metrik a nasazování modelů.

  • Podnikové zabezpečení: Bezpečný přístup ke svým datům a jejich zpracování pomocí funkcí, jako je řízení přístupu na základě rolí, šifrování, auditování a dodržování předpisů. Integrujte Azure Databricks s Microsoft Entra ID, Azure Key Vault a Azure Private Link pro ochranu identity a dat.

  • Správa a sdílení dat: Katalog Unity zjednodušuje sdílení dat v rámci organizací a zabezpečenou analýzu v cloudu tím, že poskytuje spravovanou verzi Delta Sharing pro externí sdílení a model jednotné správy dat pro data transakční jezero.

Architektura Databricks na vysoké úrovni

Azure Databricks funguje mimo řídicí rovinu a výpočetní rovinu. Referenční architektura doporučuje možnosti konfigurace v každé z těchto řídicích rovin. Následující diagram popisuje celkovou Azure architekturu Databricks.

Snímek obrazovky vysoké úrovně architektury Databricks.

Řídící rovina

Řídicí rovinou je vrstva Azure Databricks, která spravuje životní cyklus klastrů a úloh a autentizaci a autorizaci uživatelů a přístup k datům. Řídicí rovina zahrnuje backendové služby spravované Azure Databricks ve vašem účtu Azure Databricks. Webová aplikace je v řídicí rovině.

Řídicí rovina běží v Azure předplatném vlastněném Azure Databricks a komunikuje s klasickými a bezserverovými výpočetními rovinami prostřednictvím zabezpečených API. Řídicí rovina také poskytuje webové rozhraní a REST API pro uživatele k interakci s Azure Databricks.

Výpočetní rovina

Výpočetní rovina je místo, kde se zpracovávají vaše data. Existují dva typy výpočetních rovin – bezserverové a klasické. Výpočetní rovina bez serveru nabízí okamžité a elastické zdroje, zatímco klasická výpočetní rovina spoléhá na předem zřízenou infrastrukturu.

Výpočetní rovina bez serveru

Výpočet bez serveru je ideální pro ad-hoc dotazy, notebooky a krátkodobé úlohy. Můžete například použít výpočet bez serveru ke spouštění příkazů SQL v noteboocích nebo k provádění jednoduchých úloh. V bezserverové výpočetní rovině běží prostředky v compute vrstva v rámci Azure účtu Databricks.

Azure Databricks vytvoří bezserverovou výpočetní rovinu ve stejné Azure oblasti jako vaše klasická výpočetní rovina vašeho pracovního prostoru. Provozuje fond serverů umístěných v účtu Databricks, na kterých běží kontejnery Kubernetes, které lze přiřadit uživateli během několika sekund. Více informací viz Oznámení Databricks Serverless SQL: Okamžitá, spravovaná, zabezpečená a produkčně připravená platforma pro SQL pracovní zátěže – Blog Databricks.

Výpočetní platforma rychle rozšíří cluster o více serverů, když uživatelé spouštějí sestavy nebo dotazy současně, aby zvládli souběžné zatížení. Databricks spravuje celou konfiguraci serveru a podle potřeby automaticky provádí opravy a upgrady. Výpočet bez serveru se účtuje za použití (například za provedení dotazu nebo spuštění úlohy).

Obrázek ukazuje výpočetní rovinu bez serveru.

Na každém serveru běží zabezpečená konfigurace a veškeré zpracování je zabezpečeno třemi vrstvami izolace – kontejnerem Kubernetes hostujícím běhové prostředí, virtuálním počítačem hostujícím kontejner a virtuální sítí pro pracovní prostor. Každý vrstva je izolován do jednoho pracovního prostoru bez povolených sdílení nebo provozu napříč sítěmi.

Kontejnery používají zesílené konfigurace, virtuální počítače jsou vypnuty a nejsou znovu použity a síťový provoz je omezen na uzly ve stejném clusteru. Veškeré výpočty jsou pomíjivé, vyhrazené výhradně pro tuto pracovní zátěž a po dokončení úlohy jsou bezpečně vymazány.

Veškerý provoz mezi vámi, řídicí rovinou, výpočetní rovinou a cloudovými službami je směrován přes globální síť Azure, nikoli přes veřejný internet. Bezserverová výpočetní rovina pro bezserverové SQL sklady nepoužívá konektivitu back-end, kterou lze konfigurovat zákazníkem Azure Private Link. Řídicí rovina Azure Databricks se připojuje k bezserverové výpočetní rovině s mTLS s IP přístupem povoleným pouze pro IP adresu řídicí roviny.

Veškeré připojené úložiště je chráněno průmyslovým standardem AES-256 šifrováním a veškerý provoz mezi uživatelem, řídicí rovinou, výpočetní rovinou a cloudovými službami je šifrován alespoň TLS 1.2. Bezserverové SQL sklady nepoužívají klíče spravované zákazníkem pro spravované disky.

Pracovní zátěže nemají žádná oprávnění ani pověření pro systémy mimo rozsah této úlohy a přístup k datům je prostřednictvím krátkodobých (jednohodinových) tokenů. Tyto tokeny jsou bezpečně předávány každé konkrétní pracovní zátěži.

Od června 2024 není Azure Confidential Computing podporován pro výpočet bez serveru, ale vaše pracovní zatížení je chráněno několika vrstvami izolace, jak je znázorněno na Azure diagramu izolace bez serveru.

Více informací viz Nasaďte své pracovní zátěže bezpečně na bezserverovém počítači.

Klasická výpočetní rovina

Klasická výpočetní rovina je vhodná pro dlouhodobé úlohy, produkční zátěže a konzistentní potřeby zdrojů. Můžete například použít zřízený výpočet pro ETL kanály, strojové učení školení a úlohy datového inženýrství.

Klasická výpočetní rovina má přirozenou izolaci, protože běží ve vašem vlastním předplatném Azure. Nové výpočetní prostředky se vytvářejí a konfigurují v rámci virtuální sítě každého pracovního prostoru ve vašem předplatném Azure. Výpočetní prostředky zůstávají konstantní, dokud nejsou explicitně upraveny, a jsou účtovány na základě typu instance a doby trvání. Clustery mohou používat klíče spravované zákazníkem pro spravované disky a jsou podporovány okamžité instance.

Azure Správci Databricks mohou používat zásady clusteru k řízení mnoha aspektů clusterů, včetně dostupných typů instancí, verzí Databricks a velikostí instancí.

Vkládání virtuální sítě Databricks je funkce, která vám umožňuje nasadit Azure prostředky klasické výpočetní roviny Databricks ve vaší vlastní virtuální síti. Tato funkce vám pomůže bezpečněji připojit Azure Databricks k jiným Azure službám pomocí koncových bodů služeb nebo soukromých koncových bodů. Můžete také použít partnerský vztah virtuální sítě k peerování virtuální sítě, na které běží váš Azure pracovní prostor Databricks, s jinou virtuální sítí Azure.