Jakie są wszystkie elementy delty w usłudze Azure Databricks?
Ten artykuł stanowi wprowadzenie do technologii zbiorczo markowych funkcji delta w usłudze Azure Databricks. Funkcja Delta odnosi się do technologii związanych z projektem typu open source usługi Delta Lake lub w ramach projektu open source usługi Delta Lake.
Odpowiedzi na ten artykuł:
- Jakie są technologie delta w usłudze Azure Databricks?
- Co robi? A co są używane?
- Jak są one powiązane i różnią się od siebie?
Do czego służą elementy różnicowe?
Delta to termin wprowadzony wraz z Delta Lake, fundamentem przechowywania danych i zastosowań tables w lakehouse Databricks. Usługa Delta Lake została zaprojektowana jako ujednolicony system zarządzania danymi do obsługi transakcyjnych danych w czasie rzeczywistym i wsadowych danych big data, rozszerzając pliki danych Parquet przy użyciu dziennika transakcji opartego na plikach na potrzeby transakcji ACID i skalowalnej obsługi metadanych.
Delta Lake: zarządzanie danymi systemu operacyjnego dla usługi Lakehouse
Usługa Delta Lake to warstwa magazynu typu open source, która zapewnia niezawodność magazynów typu data lake przez dodanie transakcyjnej warstwy magazynu na podstawie danych przechowywanych w magazynie w chmurze (w usługach AWS S3, Azure Storage i GCS). Umożliwia ona obsługę transakcji ACID, przechowywania wersji danych i wycofywania możliwości. Umożliwia ona obsługę zarówno danych wsadowych, jak i przesyłanych strumieniowo w ujednolicony sposób.
Delta tables są oparte na tej warstwie magazynu i oferują abstrakcję table, co ułatwia pracę z ustrukturyzowanymi danymi na dużą skalę przy użyciu języka SQL i interfejsu API DataFrame.
Delta tables: domyślna architektura danych table
Delta table to domyślny format danych table w Azure Databricks i jest cechą struktury danych open source Delta Lake. Delta tables są zazwyczaj używane w przypadku jezior danych, where dane są wprowadzane za pośrednictwem przesyłania strumieniowego lub w dużych partiach.
Zobacz:
- Delta Lake — szybki start: tworzenie table
- aktualizowanie i modyfikowanie usługi Delta Lake tables.
- DeltaTable: główna klasa do programowej interakcji z tablesDelta.
Delta Live Tables: potoki danych
Usługa Delta Live Tables zarządza przepływem danych między wieloma Delta tables, co upraszcza pracę inżynierów danych nad opracowywaniem i zarządzaniem procesami ETL. Pipeline jest główną jednostką wykonywania dla Delta Live Tables. Usługa Delta Live Tables oferuje programowanie potoków deklaratywnych, lepszą niezawodność danych i operacje produkcyjne w skali chmury. Użytkownicy mogą wykonywać zarówno operacje wsadowe, jak i przesyłane strumieniowo na tym samym table, a dane są natychmiast dostępne do zapytań. Przekształcenia do wykonania na danych są definiowane, a usługa Delta Live Tables zarządza aranżacją zadań, zarządzaniem klastrem, monitorowaniem, jakością danych i obsługą błędów. Funkcja Delta Live Tables ulepszone skalowanie automatyczne może obsługiwać obciążenia przesyłania strumieniowego, które są zmienne i nieprzewidywalne.
Zobacz samouczek Delta Live Tables.
Delta tables vs. Delta Live Tables
Usługa Delta table to sposób przechowywania danych w tables, natomiast usługa Delta Live Tables pozwala opisać sposób przepływów danych między tymi tables deklaratywnie. Delta Live Tables to struktura deklaratywna, która zarządza wieloma deltami tables, tworząc je i utrzymując w aktualności. Krótko mówiąc, usługa Delta tables to architektura table danych, podczas gdy usługa Delta Live Tables jest strukturą potoku danych.
Delta: Open source lub zastrzeżone?
Zaletą platformy Azure Databricks jest to, że nie blokuje ona klientów w zastrzeżonych narzędziach: większość technologii jest obsługiwana przez projekty typu open source, do których przyczynia się usługa Azure Databricks.
Projekty systemu operacyjnego delta to przykłady:
- Projekt usługi Delta Lake: magazyn typu open source dla magazynu typu lakehouse.
- Protokół udostępniania różnicowego: protokół Open protocol do bezpiecznego udostępniania danych.
Delta Live Tables to zastrzeżona struktura w usłudze Azure Databricks.
Jakie są inne elementy funkcji delta w usłudze Azure Databricks?
Poniżej przedstawiono opisy innych funkcji, które obejmują funkcję Delta w nazwie.
Udostępnianie różnicowe
Otwarty standard bezpiecznego udostępniania danych, funkcja Delta Sharing umożliwia udostępnianie danych między organizacjami niezależnie od platformy obliczeniowej.
Aparat różnicowy
Optymalizator zapytań dla danych big data korzystający z technologii open source usługi Delta Lake zawartej w usłudze Databricks. Aparat delta optymalizuje wydajność operacji Spark SQL, Databricks SQL i DataFrame, wypychając obliczenia do danych.
Dziennik transakcji usługi Delta Lake (AKA DeltaLogs)
Jedno źródło prawdy, które śledzi wszystkie zmiany wprowadzane przez użytkowników do table, oraz mechanizm, dzięki któremu usługa Delta Lake gwarantuje niepodzielność. Zobacz protokół dziennika transakcji delta w usłudze GitHub.
Dziennik transakcji jest kluczem do zrozumienia usługi Delta Lake, ponieważ jest to typowy wątek, który przechodzi przez wiele najważniejszych funkcji:
- Transakcje ACID
- Skalowalna obsługa metadanych
- Podróż czasowa
- I więcej.