Wat is Delta Lake?
Delta Lake is een opensource-opslaglaag die ACID-transacties (atomiciteit, consistentie, isolatie en duurzaamheid) naar Apache Spark- en big data-workloads brengt.
De huidige versie van Delta Lake die deel uitmaakt van Azure Synapse heeft taalondersteuning voor Scala, PySpark en .NET en is compatibel met Linux Foundation Delta Lake. Onderaan de pagina vindt u koppelingen naar gedetailleerdere voorbeelden en documentatie. Meer informatie vindt u in de video Inleiding tot Delta Tables.
Functie | Beschrijving |
---|---|
ACID-transacties | Data Lakes worden doorgaans gevuld door meerdere processen en pijplijnen, waarvan sommige gegevens gelijktijdig met leesbewerkingen schrijven. Voorafgaand aan Delta Lake en de toevoeging van transacties moesten data engineers een handmatig foutgevoelig proces doorlopen om de gegevensintegriteit te waarborgen. Delta Lake brengt bekende ACID-transacties naar data lakes. Het biedt serialiseerbaarheid, het sterkste isolatieniveau. Meer informatie vindt u in Delta Lake: het transactielogboek uitpakken. |
Schaalbare verwerking van metagegevens | In big data kunnen zelfs de metagegevens zelf 'big data' zijn. Delta Lake behandelt metagegevens net als gegevens, waarbij gebruik wordt gemaakt van de gedistribueerde verwerkingskracht van Spark om alle metagegevens te verwerken. Als gevolg hiervan kan Delta Lake tabellen op petabyte-schaal verwerken met miljarden partities en bestanden op hun gemak. |
Time Travel (gegevensversiebeheer) | De mogelijkheid om een wijziging ongedaan te maken of terug te gaan naar een eerdere versie is een van de belangrijkste functies van transacties. Delta Lake biedt momentopnamen van gegevens waarmee u kunt terugkeren naar eerdere versies van gegevens voor controles, terugdraaiacties of om experimenten te reproduceren. Meer informatie vindt u in Introductie van Delta Lake Time Travel voor grootschalige Data Lakes. |
Indeling openen | Apache Parquet is de basisindeling voor Delta Lake, waardoor u gebruik kunt maken van de efficiënte compressie- en coderingsschema's die eigen zijn aan de indeling. |
Geïntegreerde batch- en streamingbron en sink | Een tabel in Delta Lake is zowel een batchtabel als een streamingbron en sink. Streaminggegevensopname, batch historische backfill en interactieve query's werken allemaal uit de doos. |
Schema afdwingen | Schemaafdwinging helpt ervoor te zorgen dat de gegevenstypen juist zijn en vereiste kolommen aanwezig zijn, waardoor slechte gegevens inconsistentie kunnen veroorzaken. Zie Duiken in Delta Lake: Schema-afdwinging en evolutie voor meer informatie |
Ontwikkeling van schema's | Met Delta Lake kunt u wijzigingen aanbrengen in een tabelschema dat automatisch kan worden toegepast, zonder dat u migratie-DDL hoeft te schrijven. Zie Duiken in Delta Lake: Schema-afdwinging en evolutie voor meer informatie |
Controlegeschiedenis | Delta Lake-transactielogboek registreert details over elke wijziging in gegevens die een volledig audittrail van de wijzigingen bieden. |
Updates en verwijderingen | Delta Lake ondersteunt Scala/Java/Python- en SQL-API's voor een verscheidenheid aan functionaliteit. Ondersteuning voor bewerkingen voor samenvoegen, bijwerken en verwijderen helpt u om te voldoen aan de nalevingsvereisten. Zie Announcing the Delta Lake 0.6.1 Release, Announcing the Delta Lake 0.7 Release and Simple, Reliable Upserts and Deletes on Delta Lake Tables using Python API's, waaronder codefragmenten voor samenvoegen, bijwerken en verwijderen van DML-opdrachten voor meer informatie. |
100 procent compatibel met Apache Spark-API | Ontwikkelaars kunnen Delta Lake gebruiken met hun bestaande gegevenspijplijnen met minimale wijzigingen omdat deze volledig compatibel zijn met bestaande Spark-implementaties. |
Zie de pagina met documentatie voor Delta Lake voor de volledige documentatie
Zie Delta Lake-project voor meer informatie.