Co je Delta Lake?
Delta Lake je opensourcová vrstva úložiště, která přináší transakce ACID (atomicity, konzistence, izolace a stálosti) do úloh Apache Sparku a velkých objemů dat.
Aktuální verze Delta Lake, která je součástí Azure Synapse, má jazykovou podporu pro Scala, PySpark a .NET a je kompatibilní se službou Linux Foundation Delta Lake. V dolní části stránky najdete odkazy na podrobnější příklady a dokumentaci. Další informace najdete ve videu Úvod k tabulkám Delta.
Funkce | Popis |
---|---|
Transakce ACID | Datová jezera se obvykle naplňují několika procesy a kanály, z nichž některé zapisují data souběžně se čtením. Před Delta Lake a přidáním transakcí museli datoví inženýři projít ručním procesem náchylného k chybám, aby se zajistila integrita dat. Delta Lake přináší známé transakce ACID do datových jezer. Poskytuje serializovatelnost, nejsilnější úroveň izolace. Další informace najdete v části Diving into Delta Lake: Rozbalení transakčního protokolu. |
Škálovatelné zpracování metadat | V případě velkých objemů dat můžou být i samotná metadata "velké objemy dat". Delta Lake zpracovává metadata stejně jako data a využívá distribuovaný výpočetní výkon Sparku ke zpracování všech jeho metadat. V důsledku toho může Delta Lake zpracovávat petabajtové tabulky se škálováním s miliardami oddílů a souborů. |
Time Travel (správa verzí dat) | Schopnost vrátit zpět změnu nebo se vrátit k předchozí verzi je jednou z klíčových funkcí transakcí. Delta Lake poskytuje snímky dat, které umožňují vrátit se k dřívějším verzím dat pro audity, vrácení zpět nebo reprodukovat experimenty. Přečtěte si další informace v úvodu k funkci Delta Lake Time Travel for Large Scale Data Lakes. |
Otevřít formát | Apache Parquet je základní formát pro Delta Lake, který vám umožňuje využít efektivní schémata komprese a kódování, která jsou pro tento formát nativní. |
Unified Batch and Streaming Source and Sink | Tabulka v Delta Lake je dávková tabulka i zdroj streamování a jímka. Streamování ingestování dat, dávkové historické doplňování a interaktivní dotazy fungují jenom mimo kancelář. |
Vynucení schématu | Vynucení schématu pomáhá zajistit správnost datových typů a požadovaná sloupce, což brání nesprávnému datu v tom, aby způsobila nekonzistenci dat. Další informace najdete v tématu Potápění do Delta Lake: Vynucení schématu a vývoj |
Vývoj schématu | Delta Lake umožňuje provádět změny schématu tabulky, které se dají použít automaticky, aniž byste museli zapisovat DDL migrace. Další informace najdete v tématu Potápění do Delta Lake: Vynucení schématu a vývoj |
Historie auditu | Záznamy transakčního protokolu Delta Lake o každé změně provedené v datech poskytují úplný záznam auditu změn. |
Aktualizace a odstranění | Delta Lake podporuje rozhraní Scala / Java / Python a ROZHRANÍ SQL API pro celou řadu funkcí. Podpora operací sloučení, aktualizace a odstranění pomáhá splňovat požadavky na dodržování předpisů. Další informace najdete v tématu Oznámení verze Delta Lake 0.6.1, oznámení verze Delta Lake 0.7 Release and Simple, Reliable Upserts a Deletes v tabulkách Delta Lake pomocí rozhraní Python API, která obsahuje fragmenty kódu pro sloučení, aktualizaci a odstranění příkazů DML. |
100 % kompatibilní s rozhraním Apache Spark API | Vývojáři můžou používat Delta Lake se svými stávajícími datovými kanály s minimálními změnami, protože je plně kompatibilní s existujícími implementacemi Sparku. |
Úplnou dokumentaci najdete na stránce dokumentace k Delta Lake.
Další informace najdete v tématu Delta Lake Project.