Udostępnij za pośrednictwem


Jakie są wszystkie elementy delty w usłudze Azure Databricks?

Ten artykuł stanowi wprowadzenie do technologii zbiorczo markowych funkcji delta w usłudze Azure Databricks. Funkcja Delta odnosi się do technologii związanych z projektem typu open source usługi Delta Lake lub w ramach projektu open source usługi Delta Lake.

Odpowiedzi na ten artykuł:

  • Jakie są technologie delta w usłudze Azure Databricks?
  • Co robi? A co są używane?
  • Jak są one powiązane i różnią się od siebie?

Do czego służą elementy różnicowe?

Delta to termin wprowadzony w usłudze Delta Lake, podstawy do przechowywania danych i tabel w lakehouse usługi Databricks. Usługa Delta Lake została zaprojektowana jako ujednolicony system zarządzania danymi do obsługi transakcyjnych danych w czasie rzeczywistym i wsadowych danych big data, rozszerzając pliki danych Parquet przy użyciu dziennika transakcji opartego na plikach na potrzeby transakcji ACID i skalowalnej obsługi metadanych.

Delta Lake: zarządzanie danymi systemu operacyjnego dla usługi Lakehouse

Usługa Delta Lake to warstwa magazynu typu open source, która zapewnia niezawodność magazynów typu data lake przez dodanie transakcyjnej warstwy magazynu na podstawie danych przechowywanych w magazynie w chmurze (w usługach AWS S3, Azure Storage i GCS). Umożliwia ona obsługę transakcji ACID, przechowywania wersji danych i wycofywania możliwości. Umożliwia ona obsługę zarówno danych wsadowych, jak i przesyłanych strumieniowo w ujednolicony sposób.

Tabele różnicowe są oparte na tej warstwie magazynu i zapewniają abstrakcję tabel, co ułatwia pracę z danymi ustrukturyzowanymi na dużą skalę przy użyciu języka SQL i interfejsu API ramki danych.

Tabele różnicowe: domyślna architektura tabeli danych

Tabela delty jest domyślnym formatem tabeli danych w usłudze Azure Databricks i jest funkcją struktury danych typu open source usługi Delta Lake. Tabele różnicowe są zwykle używane w przypadku magazynów danych, w których dane są pozyskiwane za pośrednictwem przesyłania strumieniowego lub w dużych partiach.

Zobacz:

Delta Live Tables: potoki danych

Delta Live Tables zarządza przepływem danych między wieloma tabelami delty, co upraszcza pracę inżynierów danych w zakresie opracowywania i zarządzania procesem ETL. Potok jest główną jednostką wykonywania tabel delta Live Tables. Usługa Delta Live Tables oferuje tworzenie potoków deklaratywnych, lepszą niezawodność danych i operacje produkcyjne w skali chmury. Użytkownicy mogą wykonywać zarówno operacje wsadowe, jak i przesyłane strumieniowo w tej samej tabeli, a dane są natychmiast dostępne do wykonywania zapytań. Przekształcenia do wykonania na danych są definiowane, a usługa Delta Live Tables zarządza aranżacją zadań, zarządzaniem klastrem, monitorowaniem, jakością danych i obsługą błędów. Rozszerzone skalowanie automatyczne tabel usługi Delta Live Tables może obsługiwać obciążenia przesyłania strumieniowego, które są kolczaste i nieprzewidywalne.

Zobacz samouczek Delta Live Tables.

Tabele różnicowe a tabele na żywo usługi Delta

Tabela delty to sposób przechowywania danych w tabelach, natomiast tabele delta live umożliwiają deklaratywne opisywanie przepływów danych między tymi tabelami. Delta Live Tables to struktura deklaratywna, która zarządza wieloma tabelami różnicowymi, tworząc je i aktualizując je. Krótko mówiąc, tabele delty to architektura tabeli danych, podczas gdy tabele Delta Live Tables to struktura potoku danych.

Delta: Open source lub zastrzeżone?

Zaletą platformy Azure Databricks jest to, że nie blokuje ona klientów w zastrzeżonych narzędziach: większość technologii jest obsługiwana przez projekty typu open source, do których przyczynia się usługa Azure Databricks.

Projekty systemu operacyjnego delta to przykłady:

  • Projekt usługi Delta Lake: magazyn typu open source dla magazynu typu lakehouse.
  • Protokół udostępniania różnicowego: protokół Open protocol do bezpiecznego udostępniania danych.

Delta Live Tables to zastrzeżona struktura w usłudze Azure Databricks.

Jakie są inne elementy funkcji delta w usłudze Azure Databricks?

Poniżej przedstawiono opisy innych funkcji, które obejmują funkcję Delta w nazwie.

Udostępnianie różnicowe

Otwarty standard bezpiecznego udostępniania danych, funkcja Delta Sharing umożliwia udostępnianie danych między organizacjami niezależnie od platformy obliczeniowej.

Aparat różnicowy

Optymalizator zapytań dla danych big data korzystający z technologii open source usługi Delta Lake zawartej w usłudze Databricks. Aparat delta optymalizuje wydajność operacji Spark SQL, Databricks SQL i DataFrame, wypychając obliczenia do danych.

Dziennik transakcji usługi Delta Lake (AKA DeltaLogs)

Jedno źródło prawdy śledzi wszystkie zmiany wprowadzane przez użytkowników do tabeli i mechanizm, za pomocą którego usługa Delta Lake gwarantuje niepodzielność. Zobacz protokół dziennika transakcji delta w usłudze GitHub.

Dziennik transakcji jest kluczem do zrozumienia usługi Delta Lake, ponieważ jest to typowy wątek, który przechodzi przez wiele najważniejszych funkcji:

  • Transakcje ACID
  • Skalowalna obsługa metadanych
  • Podróż czasowa
  • I więcej.