Udostępnij za pośrednictwem


Co to jest magazyn typu „data lake”?

Usługa Data Lake to repozytorium magazynu, które przechowuje dużą ilość danych w natywnym, nieprzetworzonym formacie. Magazyny data lake są zoptymalizowane pod kątem skalowania ich rozmiaru do terabajtów i petabajtów danych. Dane zazwyczaj pochodzą z wielu różnych źródeł i mogą obejmować dane ustrukturyzowane, częściowo ustrukturyzowane lub nieustrukturyzowane. Usługa Data Lake pomaga przechowywać wszystko w oryginalnym, nieprzetłumaczonym stanie. Ta metoda różni się od tradycyjnego magazynu danych, który przekształca i przetwarza dane w czasie pozyskiwania.

Diagram przedstawiający różne przypadki użycia usługi Data Lake.

Przypadki użycia usługi Key Data Lake obejmują:

  • Przenoszenie danych w chmurze i Internetu rzeczy (IoT).
  • Przetwarzanie danych big data.
  • Analiza.
  • Reporting.
  • Lokalne przenoszenie danych.

Rozważ następujące zalety usługi Data Lake:

  • Usługa Data Lake nigdy nie usuwa danych, ponieważ przechowuje dane w formacie nieprzetworzonym. Ta funkcja jest szczególnie przydatna w środowisku danych big data, ponieważ możesz nie wiedzieć z wyprzedzeniem, jakie szczegółowe informacje można uzyskać z danych.

  • Użytkownicy mogą eksplorować dane i tworzyć własne zapytania.

  • Usługa Data Lake może być szybsza niż tradycyjne narzędzia do wyodrębniania, przekształcania, ładowania (ETL).

  • Usługa Data Lake jest bardziej elastyczna niż magazyn danych, ponieważ może przechowywać dane bez struktury i częściowo ustrukturyzowane.

Kompletne rozwiązanie typu data lake składa się zarówno z magazynu, jak i przetwarzania. Usługa Data Lake Storage została zaprojektowana pod kątem odporności na uszkodzenia, nieskończonej skalowalności i pozyskiwania o wysokiej przepływności różnych kształtów i rozmiarów danych. Przetwarzanie w usłudze Data Lake obejmuje co najmniej jeden aparat przetwarzania, który może uwzględniać te cele i może działać na danych przechowywanych w magazynie data lake na dużą skalę.

Kiedy należy używać usługi Data Lake

Zalecamy użycie magazynu data lake do eksploracji danych, analizy danych i uczenia maszynowego.

Usługa Data Lake może pełnić rolę źródła danych dla magazynu danych. Gdy używasz tej metody, usługa Data Lake pozyskuje nieprzetworzone dane, a następnie przekształca je w ustrukturyzowany format zapytań. Zazwyczaj ta transformacja używa potoku wyodrębniania, ładowania, przekształcania (ELT), w którym dane są pozyskiwane i przekształcane. Dane relacyjne źródła mogą przechodzić bezpośrednio do magazynu danych za pośrednictwem procesu ETL i pomijać magazyn danych typu data lake.

Usługi Data Lake Store można używać w scenariuszach przesyłania strumieniowego zdarzeń lub IoT, ponieważ magazyny danych mogą utrwalać duże ilości danych relacyjnych i nierelacyjnych bez przekształcania ani definicji schematu. Magazyny Data Lake mogą obsługiwać duże ilości małych zapisów przy małych opóźnieniach i są zoptymalizowane pod kątem ogromnej przepływności.

W poniższej tabeli porównano magazyny danych i magazyny danych.

Tabela porównująca funkcje usługi Data Lake z funkcjami magazynu danych.

Wyzwania

  • Duże ilości danych: zarządzanie ogromnymi ilościami nieprzetworzonych i nieustrukturyzowanych danych może być złożone i intensywnie korzystające z zasobów, dzięki czemu potrzebujesz niezawodnej infrastruktury i narzędzi.

  • Potencjalne wąskie gardła: Przetwarzanie danych może powodować opóźnienia i nieefektywność, szczególnie w przypadku dużych ilości danych i różnych typów danych.

  • Ryzyko uszkodzenia danych: Niewłaściwe sprawdzanie poprawności i monitorowanie danych powoduje ryzyko uszkodzenia danych, co może naruszyć integralność usługi Data Lake.

  • Problemy z kontrolą jakości: Właściwa jakość danych jest wyzwaniem ze względu na różne źródła danych i formaty. Należy wdrożyć rygorystyczne rozwiązania dotyczące ładu w zakresie danych.

  • Problemy z wydajnością: wydajność zapytań może ulec pogorszeniu w miarę wzrostu magazynu i przetwarzania, dlatego należy zoptymalizować strategie magazynowania i przetwarzania.

Wybór technologi

Podczas tworzenia kompleksowego rozwiązania data lake na platformie Azure należy wziąć pod uwagę następujące technologie:

  • Usługa Azure Data Lake Storage łączy usługę Azure Blob Storage z funkcjami typu data lake, która zapewnia dostęp zgodny z usługą Apache Hadoop, hierarchiczne możliwości przestrzeni nazw i ulepszone zabezpieczenia na potrzeby wydajnej analizy danych big data.

  • Azure Databricks to ujednolicona platforma, której można używać do przetwarzania, przechowywania, analizowania i zarabiania danych. Obsługuje ona procesy ETL, pulpity nawigacyjne, zabezpieczenia, eksplorację danych, uczenie maszynowe i generowanie sztucznej inteligencji.

  • Azure Synapse Analytics to ujednolicona usługa, której można użyć do pozyskiwania, eksplorowania, przygotowywania i udostępniania danych oraz zarządzania nimi na potrzeby natychmiastowej analizy biznesowej i uczenia maszynowego. Integruje się głęboko z usługą Azure Data Lake, dzięki czemu można wydajnie wykonywać zapytania i analizować duże zestawy danych.

  • Azure Data Factory to oparta na chmurze usługa integracji danych, której można użyć do tworzenia przepływów pracy opartych na danych w celu organizowania i automatyzowania przenoszenia i przekształcania danych.

  • Microsoft Fabric to kompleksowa platforma danych, która łączy inżynierię danych, naukę o danych, magazynowanie danych, analizę w czasie rzeczywistym i analizę biznesową w jednym rozwiązaniu.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki