Co to jest Delta Lake?
Usługa Delta Lake to warstwa magazynu typu open source, która oferuje transakcje ACID (niepodzielność, spójność, izolacja i trwałość) do obciążeń platformy Apache Spark i danych big data.
Bieżąca wersja usługi Delta Lake dostępna w usłudze Azure Synapse ma obsługę języka Scala, PySpark i .NET oraz jest zgodna z usługą Delta Lake programu Linux Foundation. W dolnej części strony znajdują się linki do bardziej szczegółowych przykładów i dokumentacji. Więcej informacji można uzyskać w filmie Wprowadzenie do tabel różnicowych.
Kluczowe cechy i funkcje
Funkcja | opis |
---|---|
Transakcje ACID | Magazyny data lake są zwykle wypełniane za pomocą wielu procesów i potoków, z których niektóre zapisują dane jednocześnie z operacjami odczytu. Przed usługą Delta Lake i dodawaniem transakcji inżynierowie danych musieli przejść przez ręczny proces podatny na błędy, aby zapewnić integralność danych. Usługa Delta Lake oferuje znane transakcje ACID do magazynów danych. Zapewnia serializację, najsilniejszy poziom izolacji. Dowiedz się więcej na stronie Nurkowanie w usłudze Delta Lake: rozpakowywanie dziennika transakcji. |
Skalowalna obsługa metadanych | W danych big data nawet same metadane mogą być "danymi big data". Usługa Delta Lake traktuje metadane tak jak dane, wykorzystując rozproszoną moc obliczeniową platformy Spark do obsługi wszystkich metadanych. W związku z tym usługa Delta Lake może łatwo obsługiwać tabele w skali petabajtów z miliardami partycji i plików. |
Podróż w czasie (przechowywanie wersji danych) | Możliwość "cofania" zmiany lub powrotu do poprzedniej wersji jest jedną z kluczowych funkcji transakcji. Usługa Delta Lake udostępnia migawki danych, które umożliwiają przywrócenie wcześniejszych wersji danych na potrzeby inspekcji, wycofywania lub odtwarzania eksperymentów. Dowiedz się więcej w temacie Introducing Delta Lake Time Travel for Large Scale Data Lake (Wprowadzenie usługi Delta Lake Time Travel na dużą skalę w usłudze Data Lake). |
Otwórz format | Apache Parquet jest podstawowym formatem dla Delta Lake, umożliwiającym wykorzystanie wydajnych schematów kompresji i kodowania, które są natywne dla tego formatu. |
Ujednolicona usługa Batch i źródło przesyłania strumieniowego i ujście | Tabela w usłudze Delta Lake jest zarówno tabelą wsadową, jak i źródłem przesyłania strumieniowego i ujściem. Pozyskiwanie danych przesyłanych strumieniowo, wsadowe wypełnianie historyczne i interakcyjne zapytania po prostu działają poza polem. |
Wymuszanie schematu | Wymuszanie schematu pomaga zagwarantować, że typy danych są poprawne, a wymagane kolumny są obecne, uniemożliwiając nieprawidłowe dane powodujące niespójność danych. Aby uzyskać więcej informacji, zobacz Nurkowanie w usłudze Delta Lake: wymuszanie schematu i ewolucja |
Ewolucja schematu | Usługa Delta Lake umożliwia wprowadzanie zmian w schemacie tabeli, które można stosować automatycznie, bez konieczności pisania kodu DDL migracji. Aby uzyskać więcej informacji, zobacz Nurkowanie w usłudze Delta Lake: wymuszanie schematu i ewolucja |
Historia inspekcji | Dziennik transakcji usługi Delta Lake rejestruje szczegółowe informacje o każdej zmianie wprowadzonej w danych, zapewniając pełny dziennik inspekcji zmian. |
Aktualizacje i usunięcia | Usługa Delta Lake obsługuje interfejsy API Języka Scala/Java/Python i SQL dla różnych funkcji. Obsługa operacji scalania, aktualizowania i usuwania pomaga spełnić wymagania dotyczące zgodności. Aby uzyskać więcej informacji, zobacz Ogłoszenie wydania usługi Delta Lake 0.6.1, ogłoszenie wydania usługi Delta Lake 0.7 i prostego, niezawodnego upserts i usuwania w tabelach usługi Delta Lake przy użyciu interfejsów API języka Python, które obejmują fragmenty kodu do scalania, aktualizowania i usuwania poleceń DML. |
100 procent zgodne z interfejsem API platformy Apache Spark | Deweloperzy mogą używać usługi Delta Lake z istniejącymi potokami danych z minimalną zmianą, ponieważ jest w pełni zgodna z istniejącymi implementacjami platformy Spark. |
Aby uzyskać pełną dokumentację , zobacz stronę dokumentacji usługi Delta Lake
Aby uzyskać więcej informacji, zobacz Projekt usługi Delta Lake.