Jakie są wszystkie elementy delty w usłudze Azure Databricks?
Ten artykuł stanowi wprowadzenie do technologii zbiorczo markowych pod nazwą Delta w usłudze Azure Databricks. Delta odnosi się do technologii związanych z projektem open source Delta Lake.
Odpowiedzi zawarte w tym artykule:
- Jakie są technologie delta w usłudze Azure Databricks?
- Co robi? Do czego są używane?
- Jak są one powiązane i różnią się od siebie?
Do czego służą rzeczy Delta?
Delta to termin wprowadzony przez Delta Lake, które jest podstawą przechowywania danych i tabel w lakehousie Databricks. Usługa Delta Lake została zaprojektowana jako ujednolicony system zarządzania danymi do obsługi transakcyjnych danych w czasie rzeczywistym i wsadowych danych big data, rozszerzając pliki danych Parquet przy użyciu dziennika transakcji opartego na plikach na potrzeby transakcji ACID i skalowalnej obsługi metadanych.
Delta Lake: zarządzanie danymi systemu operacyjnego dla usługi Lakehouse
Usługa Delta Lake to warstwa magazynu typu open source, która zapewnia niezawodność magazynów typu data lake przez dodanie transakcyjnej warstwy magazynu na podstawie danych przechowywanych w magazynie w chmurze (w usługach AWS S3, Azure Storage i GCS). Umożliwia obsługę transakcji ACID, wersjonowanie danych oraz możliwość cofania zmian. Umożliwia ona obsługę zarówno danych wsadowych, jak i przesyłanych strumieniowo w ujednolicony sposób.
Tabele Delta są oparte na tej warstwie magazynu i zapewniają abstrakcję tabel, co ułatwia pracę z danymi ustrukturyzowanymi na dużą skalę przy użyciu języka SQL i API DataFrame.
Tabele Delta: domyślna architektura tabeli danych
Tabela delty jest domyślnym formatem tabeli danych w usłudze Azure Databricks i jest funkcją struktury danych typu open source usługi Delta Lake. Tabele delta są zwykle używane w przypadku jezior danych, w których dane są pozyskiwane za pośrednictwem przesyłania strumieniowego lub w dużych partiach.
Zobacz:
- Delta Lake — szybkie wprowadzenie: tworzenie tabeli
- aktualizowanie i modyfikowanie tabel Delta Lake.
- Klasa DeltaTable: Główna klasa do programowego współdziałania z tabelami Delta.
DLT: potoki danych
DlT zarządza przepływem danych między wieloma tabelami delty, co upraszcza pracę inżynierów danych w zakresie opracowywania i zarządzania procesem ETL. Przepływ jest główną jednostką wykonywania dla DLT. DLT oferuje deklaratywne tworzenie potoków, lepszą niezawodność danych i operacje produkcyjne w skali chmury. Użytkownicy mogą wykonywać zarówno operacje wsadowe, jak i przesyłane strumieniowo w tej samej tabeli, a dane są natychmiast dostępne do wykonywania zapytań. Przekształcenia do wykonania na danych są definiowane, a biblioteka DLT zarządza orkiestracją zadań, zarządzaniem klastrem, monitorowaniem, jakością danych i obsługą błędów. Automatyczne skalowanie rozszerzone DLT może obsługiwać zmienne i nieprzewidywalne obciążenia przesyłania strumieniowego.
Zobacz samouczek DLT.
Tabele Delta a DLT
Tabela delty to sposób przechowywania danych w tabelach, natomiast biblioteka DLT umożliwia deklaratywne opisywanie przepływu danych między tymi tabelami. DLT to struktura deklaratywna, która zarządza wieloma tabelami różnicowymi, tworząc je i aktualizując je. Krótko mówiąc, tabele delty są architekturą tabeli danych, podczas gdy DLT jest strukturą potoku danych.
Delta: Open source lub zastrzeżone?
Zaletą platformy Azure Databricks jest to, że nie blokuje ona klientów w zastrzeżonych narzędziach: większość technologii jest obsługiwana przez projekty typu open source, do których przyczynia się usługa Azure Databricks.
Projekty systemu operacyjnego delta to przykłady:
- Projekt Delta Lake: Open-source'owy magazyn danych dla architektury lakehouse.
- Delta Sharing protocol: Otwarty protokół do bezpiecznego udostępniania danych.
DLT to zastrzeżona struktura w usłudze Azure Databricks.
Jakie są inne elementy funkcji delta w usłudze Azure Databricks?
Poniżej przedstawiono opisy innych funkcji, które obejmują funkcję Delta w nazwie.
Udostępnianie Delta
Otwarty standard bezpiecznego udostępniania danych, funkcja Delta Sharing umożliwia udostępnianie danych między organizacjami niezależnie od platformy obliczeniowej.
Silnik delta
Optymalizator zapytań dla danych big data korzystający z technologii open source usługi Delta Lake zawartej w usłudze Databricks. Silnik Delta optymalizuje wydajność operacji Spark SQL, Databricks SQL i DataFrame, przesuwając obliczenia na dane.
Dziennik transakcji usługi Delta Lake (AKA DeltaLogs)
Jednoznaczne źródło prawdy śledzące wszystkie zmiany wprowadzane przez użytkowników do tabeli oraz mechanizm, dzięki któremu Delta Lake gwarantuje atomowość. Zobacz protokół dziennika transakcji delta w usłudze GitHub.
Dziennik transakcji jest kluczem do zrozumienia usługi Delta Lake, ponieważ jest to typowy wątek, który przechodzi przez wiele najważniejszych funkcji:
- Transakcje ACID
- Skalowalna obsługa metadanych
- Podróż czasowa
- I więcej.