Omówienie usługi Azure Data Lake Storage Gen2
Magazyn typu data lake to repozytorium danych przechowywanych w swoim zwykłym formacie, zazwyczaj w postaci plików lub obiektów blob. Usługa Azure Data Lake Storage to kompleksowe, wysoce skalowalne, bezpieczne i ekonomiczne rozwiązanie typu data lake do analizy o wysokiej wydajności wbudowane na platformie Azure.
Usługa Azure Data Lake Storage łączy system plików z platformą do przechowywania danych, dzięki czemu możesz szybko wyciągać praktyczne wnioski z danych. Usługa Data Lake Storage bazuje na możliwościach usługi Azure Blob Storage, aby zoptymalizować je specjalnie pod kątem obciążeń analitycznych. Ta integracja zapewnia wydajność analizy, funkcje obsługi warstw i zarządzania cyklem życia danych dostępne w usłudze Blob Storage oraz wysoką dostępność, zabezpieczenia i trwałość typowe dla usługi Azure Storage.
Świadczenia
Usługa Data Lake Storage została zaprojektowana tak, aby obsługiwała tę różnorodność i ilość danych w skali exabajtów, a jednocześnie bezpiecznie obsługuje setki gigabajtów przepływności. Dzięki temu usługa Data Lake Storage Gen2 może stać się podstawą wszelkich rozwiązań zarówno do przetwarzania w czasie rzeczywistym, jak i do przetwarzania partii danych.
Dostęp zgodny z usługą Hadoop
Zaletą usługi Data Lake Storage jest to, że można traktować dane tak, jakby były przechowywane w rozproszonym systemie plików Hadoop (HDFS). Dzięki temu możesz przechowywać dane w jednym miejscu i uzyskiwać do nich dostęp za pomocą technologii obliczeniowych, takich jak Azure Databricks, Azure HDInsight i Azure Synapse Analytics, bez konieczności przenoszenia danych między środowiskami. Inżynier danych ma również możliwość korzystania z mechanizmów magazynowania, takich jak format parquet, który jest wysoce skompresowany i działa dobrze na wielu platformach przy użyciu wewnętrznego magazynu kolumnowego.
Zabezpieczenia
Usługa Data Lake Storage obsługuje listy kontroli dostępu (ACL) i uprawnienia przenośnego interfejsu systemu operacyjnego (POSIX), które nie dziedziczą uprawnień katalogu nadrzędnego. W rzeczywistości można ustawić uprawnienia na poziomie katalogu lub pliku dla danych przechowywanych w usłudze Data Lake, zapewniając znacznie bardziej bezpieczny system magazynowania. Te zabezpieczenia można konfigurować za pomocą technologii takich jak Hive i Spark lub narzędzia, takie jak Eksplorator usługi Azure Storage, które działają w systemach Windows, macOS i Linux. Wszystkie przechowywane dane są szyfrowane w spoczynku przy użyciu kluczy zarządzanych przez klienta lub firmę Microsoft.
Wydajność
Dane przechowywane w usłudze Azure Data Lake Storage są uporządkowane w hierarchię katalogów i podkatalogów, podobnie jak w systemie plików, co ułatwia nawigację. Dzięki temu przetwarzanie danych wymaga mniejszej ilości zasobów obliczeniowych, jest więc mniej czasochłonne i tańsze.
Nadmiarowość danych
Usługa Data Lake Storage korzysta z modeli replikacji obiektów blob platformy Azure, które zapewniają nadmiarowość danych w jednym centrum danych z magazynem lokalnie nadmiarowym (LRS) lub w regionie pomocniczym przy użyciu opcji Magazyn geograficznie nadmiarowy (GRS). Dzięki tej funkcji Twoje dane pozostaną dostępne i chronione nawet w przypadku awarii.
Napiwek
Za każdym razem, gdy planujesz usługę Data Lake, inżynier danych powinien rozważyć strukturę, ład danych i bezpieczeństwo. Powinno to obejmować czynniki, które mogą mieć wpływ na strukturę i organizację typu lake, takie jak:
- Typy danych do przechowywania
- Jak dane zostaną przekształcone
- Kto powinien uzyskiwać dostęp do danych
- Jakie są typowe wzorce dostępu
Takie podejście pomoże określić, jak zaplanować zarządzanie kontrolą dostępu w całym jeziorze. Inżynierowie danych powinni być aktywni w celu zapewnienia, że jezioro nie stanie się przysłowiowym bagnem danych, które staje się niedostępne i nieprzydatne dla użytkowników ze względu na brak miar ładu danych i jakości danych. Ustanowienie planu bazowego i przestrzeganie najlepszych rozwiązań dla usługi Azure Data Lake pomoże zapewnić właściwą i niezawodną implementację, która pozwoli organizacji rozwijać się i uzyskiwać szczegółowe informacje, aby osiągnąć więcej.