Jaké všechny funkce Delta jsou v Azure Databricks?
Tento článek je úvodem k technologiím, které se souhrnně označují jako Delta v Azure Databricks. Delta odkazuje na technologie související s otevřeným projektem Delta Lake.
Tento článek odpovídá:
- Jaké jsou technologie Delta v Azure Databricks?
- Co dělají? Nebo k čemu slouží?
- Jak souvisí a liší se od sebe?
K čemu slouží věci Delta?
Delta je termín zavedený s Delta Lake, což je základ pro ukládání dat a tabulek v datovém jezerním domě Databricks. Delta Lake byla navržena jako jednotný systém pro správu dat pro transakční zpracování velkých objemů dat v reálném čase a dávkové zpracování velkých objemů dat rozšířením datových souborů Parquet o protokol transakcí založený na souborech pro transakce ACID a škálovatelné řízení metadat.
Delta Lake: Správa dat operačního systému pro lakehouse
Delta Lake je opensourcová vrstva úložiště, která přináší spolehlivost datových jezer přidáním transakční vrstvy úložiště nad daty uloženými v cloudovém úložišti (v AWS S3, Azure Storage a GCS). Umožňuje transakce ACID, správu verzí dat a možnosti vrácení zpět. Umožňuje zpracovávat dávková i streamovaná data jednotným způsobem.
Tabulky Delta jsou postavené na této vrstvě úložiště a poskytují abstrakci tabulek, což usnadňuje práci s rozsáhlými strukturovanými daty pomocí SQL a rozhraní DATAFrame API.
Tabulky Delta: Výchozí architektura tabulek dat
Tabulka Delta je výchozí formát tabulky dat v Azure Databricks a je funkcí opensourcové datové architektury Delta Lake. Tabulky Delta se obvykle používají pro datová jezera, kde se data ingestují prostřednictvím streamování nebo ve velkých dávkách.
Přečtěte si:
- Rychlý start Delta Lake: Vytvoření tabulky
- Aktualizace a úprava tabulek Delta Lake
- DeltaTable – třída: Hlavní třída pro interakci s tabulkami Delta prostřednictvím kódu programu.
DLT: Datové kanály
DLT spravuje tok dat mezi mnoha tabulkami Delta, což zjednodušuje práci datových inženýrů na vývoji a správě ETL. Pipeline je hlavní jednotkou provádění pro DLT. DLT nabízí deklarativní vývoj datových toků, vylepšenou spolehlivost dat a provozní operace v měřítku cloudu. Uživatelé můžou provádět dávkové i streamované operace ve stejné tabulce a data jsou okamžitě k dispozici pro dotazování. Transformace, které se mají s daty provádět, definujete a DLT spravuje orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb. Vylepšené automatické škálování DLT dokáže zvládnout úlohy streamování, které jsou nerovnoměrné a nepředvídatelné.
Podívejte se na kurz DLT.
Tabulky Delta vs. DLT
Tabulka Delta je způsob, jak ukládat data do tabulek, zatímco DLT umožňuje popsat, jak data mezi těmito tabulkami deklarativním způsobem proudí. DLT je deklarativní architektura, která spravuje mnoho tabulek delta tím, že je vytváří a udržuje je v aktualizovaném stavu. Tabulky Delta jsou stručně řečeno architekturou datových tabulek, zatímco DLT je architektura datového kanálu.
Delta: Open source nebo proprietární?
Silnou stránkou platformy Azure Databricks je, že nezamkne zákazníky do proprietárních nástrojů: Velká část technologie využívá opensourcové projekty, ke kterým Azure Databricks přispívá.
Projekty Delta OSS jsou příklady:
- Projekt Delta Lake: Open-source úložiště pro datové jezero (lakehouse)
- Protokol Delta Sharing: Otevřený protokol pro zabezpečené sdílení dat.
DLT je proprietární architektura v Azure Databricks.
Jaké jsou další Delta prvky na Azure Databricks?
Níže jsou uvedeny popisy dalších funkcí, které ve svém názvu obsahují Delta .
Sdílení Delta
Otevřený standard pro zabezpečené sdílení dat umožňuje sdílení dat mezi organizacemi bez ohledu na jejich výpočetní platformu.
Motor Delta
Optimalizátor dotazů pro velké objemy dat, který používá opensourcovou technologii Delta Lake, která je součástí Databricks. Modul Delta optimalizuje výkon operací Spark SQL, Databricks SQL a DataFrame tím, že do dat odesílá výpočty.
Transakční protokol Delta Lake (AKA DeltaLogs)
Jediný zdroj pravdy sledující všechny změny, které uživatelé v tabulce dělají, a mechanismus, prostřednictvím kterého Delta Lake zaručuje atomicitu. Podívejte se na protokol transakčního logu Delta na GitHubu.
Transakční protokol je klíčem k pochopení Delta Lake, protože se jedná o běžné vlákno, které prochází mnoha jeho nejdůležitějšími funkcemi:
- Transakce ACID
- Škálovatelné zpracování metadat
- Časová cesta
- A další.