Omówienie usługi Delta Lake

Ukończone

Usługa Delta Lake to warstwa magazynu typu open source, która dodaje semantyka relacyjnej bazy danych do przetwarzania typu data lake opartego na platformie Spark. Usługa Delta Lake jest obsługiwana w pulach platformy Spark usługi Azure Synapse Analytics dla kodu PySpark, Scala i .NET.

Zalety korzystania z usługi Delta Lake w puli platformy Spark usługi Synapse Analytics obejmują:

  • Tabele relacyjne, które obsługują wykonywanie zapytań i modyfikowanie danych. Za pomocą usługi Delta Lake można przechowywać dane w tabelach, które obsługują operacje CRUD (tworzenie, odczytywanie, aktualizowanie i usuwanie). Innymi słowy, można wybrać, wstawić, zaktualizować i usunąć wiersze danych w taki sam sposób, jak w systemie relacyjnej bazy danych.
  • Obsługa transakcji ACID. Relacyjne bazy danych są przeznaczone do obsługi modyfikacji danych transakcyjnych, które zapewniają niepodzielność (transakcje są wykonywane jako pojedyncza jednostka pracy), spójność (transakcje opuszczają bazę danych w stanie spójnym), izolację (transakcje w procesie nie mogą ingerować w siebie) i trwałość (po zakończeniu transakcji zmiany są utrwalane). Usługa Delta Lake zapewnia tę samą obsługę transakcyjną platformy Spark, implementując dziennik transakcji i wymuszając izolację z możliwością serializacji dla operacji współbieżnych.
  • Przechowywanie wersji danych i podróż w czasie. Ponieważ wszystkie transakcje są rejestrowane w dzienniku transakcji, można śledzić wiele wersji każdego wiersza tabeli, a nawet użyć funkcji podróży czasowej, aby pobrać poprzednią wersję wiersza w zapytaniu.
  • Obsługa danych wsadowych i przesyłanych strumieniowo. Chociaż większość relacyjnych baz danych zawiera tabele, które przechowują dane statyczne, platforma Spark obejmuje natywną obsługę danych przesyłanych strumieniowo za pośrednictwem interfejsu API przesyłania strumieniowego ze strukturą platformy Spark. Tabele usługi Delta Lake mogą być używane zarówno jako ujścia (miejsca docelowe) i źródła danych przesyłanych strumieniowo.
  • Standardowe formaty i współdziałanie. Dane bazowe tabel usługi Delta Lake są przechowywane w formacie Parquet, który jest często używany w potokach pozyskiwania typu data lake. Ponadto możesz użyć bezserwerowej puli SQL w usłudze Azure Synapse Analytics do wykonywania zapytań względem tabel usługi Delta Lake w języku SQL.

Napiwek

Aby uzyskać więcej informacji na temat usługi Delta Lake w usłudze Azure Synapse Analytics, zobacz Co to jest usługa Delta Lake w dokumentacji usługi Azure Synapse Analytics.