Vysvětlení klíčových konceptů
Azure Databricks je jedna platforma služeb s několika technologiemi, které umožňují pracovat s daty ve velkém měřítku. Při použití Azure Databricks existuje několik klíčových konceptů, které je potřeba pochopit.
Pracovní prostory
Pracovní prostor je prostředí pro přístup ke všem prostředkům Databricks. Poskytuje uživatelské rozhraní pro správu poznámkových bloků, knihoven a experimentů. Pracovní prostory je možné uspořádat do složek a sdílet je mezi členy týmu, což usnadňuje spolupráci a správu prostředků.
Poznámkové bloky
Poznámkové bloky Databricks jsou interaktivní dokumenty, které obsahují spustitelný kód, vizualizace a text vyprávění. Podporují více jazyků, včetně Pythonu, R, Scaly a SQL, které je možné použít současně ve stejném poznámkovém bloku. Poznámkové bloky jsou centrální pro projekty pro spolupráci a jsou ideální pro průzkumnou analýzu dat, vizualizaci dat a složité datové pracovní postupy.
Clustery
Clustery jsou výpočetní moduly Azure Databricks. Uživatelé můžou vytvářet a škálovat clustery podle potřebných výpočetních prostředků. Clustery je možné nakonfigurovat ručně nebo nastavit na automatické škálování na základě úloh. Podporují různé typy uzlů pro různé úlohy, jako jsou ovladače a pracovní uzly a zajišťují efektivní využití prostředků.
Úlohy
Úlohy v Azure Databricks se používají k plánování a spouštění automatizovaných úloh. Těmito úlohami můžou být spuštění poznámkového bloku, úlohy Sparku nebo spuštění libovolného kódu. Úlohy se dají aktivovat podle plánu nebo spustit v reakci na určité události, což usnadňuje automatizaci pracovních postupů a pravidelných úloh zpracování dat.
Databricks Runtime
Databricks Runtime je sada verzí Apache Spark optimalizovaných pro výkon. Zahrnuje vylepšení pro lepší výkon a další funkce nad rámec standardního Sparku, jako jsou optimalizace úloh strojového učení, zpracování grafů a genomiky.
Delta Lake
Delta Lake je opensourcová vrstva úložiště, která přináší spolehlivost a škálovatelnost datových jezer. Poskytuje transakce ACID, škálovatelné zpracování metadat a sjednocené zpracování streamovaných a dávkových dat, a to vše zásadní pro správu rozsáhlých dat konzistentním a odolným proti chybám.
Databricks SQL
Databricks SQL poskytuje způsob, jak provádět dotazy SQL na data v rámci Azure Databricks. Umožňuje datovým analytikům spouštět rychlé ad hoc dotazy a vytvářet sestavy přímo na velkých objemech dat. Obsahuje editor SQL, řídicí panely a nástroje pro automatickou vizualizaci, díky čemuž je uživatelsky přívětivý pro ty, kteří jsou zvyklí na prostředí SQL.
MLflow
MLflow je opensourcová platforma pro správu kompletního životního cyklu strojového učení. Zahrnuje funkce pro sledování experimentů, správu modelů a nasazení, které odborníkům pomáhají efektivně spravovat a sdílet jejich modely ML a experimenty.