Omówienie usługi Azure Data Lake Storage na potrzeby analizy w skali chmury

Artykuł
10/19/2024

Usługa Azure Data Lake to wysoce skalowalny i bezpieczny magazyn danych na potrzeby obciążeń analitycznych o wysokiej wydajności. Konta magazynu można tworzyć w ramach jednej grupy zasobów na potrzeby analizy w skali chmury. Zalecamy aprowizowanie trzech kont usługi Azure Data Lake Storage Gen2 w ramach jednej grupy zasobów podobnej do storage-rg grupy zasobów opisanej w artykule Omówienie strefy docelowej architektury analizy w skali chmury.

Każde konto magazynu w strefie docelowej danych przechowuje dane w jednym z trzech etapów, które są zgodne z architekturą medalonu:

Nieprzetworzone dane (brąz)
Wzbogacone (srebrne) i wyselekcjonowane dane (złoto)
Tworzenie magazynów danych

Aplikacja danych może wykorzystywać wzbogacone i wyselekcjonowane dane z konta magazynu, które zostało pozyskane przez zautomatyzowaną usługę pozyskiwania danych niezależnie od danych. Możesz utworzyć aplikację danych wyrównaną do źródła, jeśli nie implementujesz aparatu niezależnego od danych lub ułatwiasz złożone połączenia na potrzeby pozyskiwania danych ze źródeł operacyjnych. Ta aplikacja danych jest zgodna z tym samym przepływem co aparat niezależny od danych podczas pozyskiwania danych z zewnętrznych źródeł danych.

Usługa Data Lake Storage Gen2 obsługuje szczegółowe listy kontroli dostępu (ACL), które chronią dane na poziomach plików i folderów. Listy kontroli dostępu mogą pomóc organizacji w zaimplementowaniu ścisłych środków zabezpieczeń na potrzeby uwierzytelniania i autoryzacji dla produktów danych:

Bezpieczne przechowywanie danych za pośrednictwem szyfrowania magazynowanych.
Mechanizmy kontroli dostępu dla użytkowników i grup zabezpieczeń firmy Microsoft Entra za pośrednictwem integracji firmy Microsoft Entra.

Planowanie usługi Data Lake

Podczas planowania usługi Data Lake zawsze należy wziąć pod uwagę odpowiednie kwestie dotyczące struktury, ładu i zabezpieczeń. Wiele czynników wpływa na strukturę i organizację usługi Data Lake:

Typ przechowywanych danych
Jak przekształcane są jego dane
Kto uzyskuje dostęp do swoich danych
Jakie są typowe wzorce dostępu

Konsumenci i producenci grup w oparciu o ich potrzeby dotyczące dostępu do danych. Dobrym pomysłem jest zaplanowanie implementacji i kontroli dostępu w usłudze Data Lake.

Jeśli usługa Data Lake zawiera kilka zasobów danych i zautomatyzowanych procesów, takich jak wyodrębnianie, przekształcanie, ładowanie (ETL), planowanie może być dość proste. Jeśli usługa Data Lake zawiera setki zasobów danych i obejmuje zautomatyzowaną i ręczną interakcję, należy poświęcić dłuższy czas na planowanie, ponieważ potrzebujesz znacznie większej współpracy od właścicieli danych.

Analogia bagna danych

Bagna danych to niezarządzane jezioro danych, które jest prawie niedostępne dla użytkowników. Obszary danych występują, gdy nie implementujesz miar jakości danych i ładu danych. Czasami można zobaczyć bagno danych w magazynie danych z istniejącymi modelami hybrydowymi.

Odpowiedni nadzór i organizacja uniemożliwiają zamazań danych. Podczas tworzenia solidnej podstawy dla usługi Data Lake zwiększa się prawdopodobieństwo trwałego sukcesu w usłudze Data Lake i wartości biznesowej.

Wraz ze wzrostem rozmiaru, złożoności, liczby zasobów danych i liczby użytkowników lub działów usługi Data Lake coraz bardziej ważne jest posiadanie niezawodnego systemu wykazu danych. System wykazu danych gwarantuje, że użytkownicy będą mogli znajdować, oznaczać i klasyfikować dane podczas przetwarzania, korzystania z usługi Data Lake i zarządzania nim.

Aby uzyskać więcej informacji, zobacz Omówienie ładu danych.

Konta magazynu w usłudze Logical Data Lake

Zastanów się, czy organizacja potrzebuje jednego lub wielu kont magazynu, i zastanów się, jakie systemy plików są wymagane do utworzenia logicznego magazynu data lake. Technologia pojedynczego magazynu zapewnia wiele metod dostępu do danych i ułatwia standaryzację w całej organizacji.

Data Lake Storage Gen2 to w pełni zarządzana platforma jako usługa (PaaS). Wiele kont magazynu lub systemów plików nie może ponieść kosztów pieniężnych, dopóki dane nie będą uzyskiwane ani przechowywane. Każdy zasób platformy Azure ma administracyjne i operacyjne obciążenie podczas aprowizacji, zabezpieczeń i ładu, w tym kopii zapasowych i odzyskiwania po awarii.

Uwaga

Trzy magazyny danych są ilustrowane w każdej strefie docelowej danych. Jednak w zależności od wymagań możesz skonsolidować nieprzetworzone, wzbogacone i wyselekcjonowane warstwy na jedno konto magazynu. Możesz utworzyć inne konto magazynu o nazwie "programowanie", w którym konsumenci danych mogą przynieść inne przydatne produkty danych.

Podczas podejmowania decyzji o skonsolidowanym lub trzech kontach magazynu należy wziąć pod uwagę następujące czynniki:

Izolacja środowisk danych i przewidywalność
- Możesz odizolować działania uruchamiane w strefach pierwotnych i programistycznych, aby uniknąć potencjalnego wpływu na wyselekcjonowany obszar, w którym przechowywane są dane o dużej wartości biznesowej potrzebnej do podejmowania kluczowych decyzji
Funkcje i funkcje na poziomie konta magazynu
- Możesz wybrać, czy opcje zarządzania cyklem życia lub reguły zapory muszą być stosowane na poziomie strefy docelowej danych lub magazynu data lake.
- Utwórz wiele kont magazynu, ale nie niechcianych silosów.
- Unikaj duplikowania projektów danych z braku widoczności lub udostępniania wiedzy w całej organizacji.
- Upewnij się, że masz dobre zarządzanie danymi, narzędzia do śledzenia projektów i wykaz danych.
Interakcja narzędzi i technologii przetwarzania danych z danymi w wielu jeziorach na podstawie skonfigurowanych uprawnień
Jeziora regionalne i globalne
- Globalnie rozproszeni odbiorcy lub procesy w jeziorze są wrażliwe na opóźnienia spowodowane odległościami geograficznymi.
- Przechowywanie danych lokalnie jest dobrym rozwiązaniem.
- Ograniczenia regulacyjne i niezależność danych mogą wymagać, aby dane pozostały w określonym regionie.
- Aby uzyskać więcej informacji, zobacz Wdrożenia w wielu regionach.

Wdrożenia w wielu regionach

W przypadku dyktowania przez reguły rezydencji danych lub wymaganie, aby dane były blisko bazy użytkowników, może być konieczne utworzenie kont usługi Azure Data Lake w wielu regionach świadczenia usługi Azure. Musisz utworzyć strefę docelową danych w jednym regionie, a następnie replikować dane globalne przy użyciu narzędzia AzCopy, usługi Azure Data Factory lub produktów partnerskich. Dane lokalne żyją w regionie, podczas gdy dane globalne są replikowane w wielu regionach.

Następne kroki

Strefy i kontenery usługi Data Lake

Udostępnij za pośrednictwem