Vad är alla Delta-saker i Azure Databricks?
Den här artikeln är en introduktion till de tekniker som är gemensamt märkta med Delta på Azure Databricks. Delta avser tekniker som är relaterade till eller i Delta Lake öppen källkod-projektet.
Den här artikeln besvarar:
- Vilka är Delta-teknikerna i Azure Databricks?
- Vad gör de? Eller vad används de till?
- Hur är de relaterade till och skilda från varandra?
Vad används Delta-sakerna till?
Delta är en term som introducerades med Delta Lake, grunden för lagring av data och tabeller i Databricks lakehouse. Delta Lake utformades som ett enhetligt datahanteringssystem för hantering av transaktionella realtids- och batch-stordata genom att utöka Parquet-datafiler med en filbaserad transaktionslogg för ACID-transaktioner och skalbar metadatahantering.
Delta Lake: OS-datahantering för lakehouse
Delta Lake är ett lagringslager med öppen källkod som ger tillförlitlighet till datasjöar genom att lägga till ett transaktionellt lagringslager ovanpå data som lagras i molnlagring (på AWS S3, Azure Storage och GCS). Det möjliggör ACID-transaktioner, dataversionshantering och återställningsfunktioner. Det gör att du kan hantera både batch- och strömmande data på ett enhetligt sätt.
Deltatabeller bygger på det här lagringslagret och ger en tabellabstraktion, vilket gör det enkelt att arbeta med storskaliga strukturerade data med SQL och DataFrame-API:et.
Deltatabeller: Standardarkitektur för datatabeller
Delta-tabellen är standardformatet för datatabeller i Azure Databricks och är en funktion i dataramverket med öppen källkod i Delta Lake. Deltatabeller används vanligtvis för datasjöar, där data matas in via direktuppspelning eller i stora batchar.
Se:
- snabbstart för Delta Lake: Skapa en tabell
- Uppdatera och ändra Delta Lake-tabeller.
- DeltaTable-klass: Huvudklass för att interagera programmatiskt med Delta-tabeller.
DLT: Datapipelines
DLT hanterar dataflödet mellan många Delta-tabeller, vilket förenklar datateknikers arbete med utveckling och hantering av ETL. Pipelinen är huvudkörningsenheten för DLT. DLT erbjuder deklarativ pipelineutveckling, förbättrad datatillförlitlighet och produktionsåtgärder i molnskala. Användare kan utföra både batch- och strömningsåtgärder i samma tabell och data är omedelbart tillgängliga för frågor. Du definierar de omvandlingar som ska utföras på dina data, och DLT hanterar uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering. DLT-förbättrad autoskalning kan hantera arbetsbelastningar som är ojämna och oförutsägbara.
Se DLT-självstudien.
Deltatabeller jämfört med DLT
Deltatabell är ett sätt att lagra data i tabeller, medan DLT låter dig beskriva hur data flödar mellan dessa tabeller deklarativt. DLT är ett deklarativt ramverk som hanterar många deltatabeller genom att skapa dem och hålla dem uppdaterade. Kort och kort är Delta-tabeller en datatabellarkitektur medan DLT är ett ramverk för datapipeline.
Delta: Öppen källkod eller upphovsrättsskyddad?
En styrka med Azure Databricks-plattformen är att den inte låser kunderna till proprietära verktyg: Mycket av tekniken drivs av öppen källkod projekt som Azure Databricks bidrar till.
Delta OSS-projekten är exempel:
- Delta Lake-projekt: Lagring med öppen källkod för ett sjöhus.
- Deltadelningsprotokoll: Öppna protokollet för säker datadelning.
DLT är ett patentskyddat ramverk i Azure Databricks.
Vad är de andra Delta-sakerna i Azure Databricks?
Nedan visas beskrivningar av andra funktioner som innehåller Delta i deras namn.
Deltadelning
Deltadelning är en öppen standard för säker datadelning och möjliggör datadelning mellan organisationer oavsett beräkningsplattform.
Deltamotor
En frågeoptimerare för stordata som använder Delta Lake öppen källkod teknik som ingår i Databricks. Deltamotorn optimerar prestandan för Spark SQL, Databricks SQL och DataFrame-operationer genom att flytta beräkningen närmare datan.
Delta Lake-transaktionslogg (även kallad DeltaLogs)
En enda sanningskälla som spårar alla ändringar som användare gör i tabellen och den mekanism genom vilken Delta Lake garanterar atomicitet. Se deltatransaktionsloggprotokollet på GitHub.
Transaktionsloggen är nyckeln till att förstå Delta Lake, eftersom det är den röda tråden som går igenom många av dess viktigaste funktioner:
- ACID-transaktioner
- Skalbar metadatahantering
- Tidsresa
- Och mer.