Eksplorowanie magazynów danych analitycznych

8 min

Istnieją dwa typowe typy magazynu danych analitycznych.

Magazyny danych

Diagram magazynu danych ze schematem gwiazdy.

Magazyn danych to relacyjna baza danych, w której dane są przechowywane w schemacie zoptymalizowanym pod kątem analizy danych, a nie obciążeń transakcyjnych. Często dane z magazynu transakcyjnego są przekształcane w schemat, w którym wartości liczbowe są przechowywane w centralnych tabelach faktów , które są powiązane z co najmniej jedną tabelą wymiarów reprezentującą jednostki, zagregowane dane. Na przykład tabela faktów może zawierać dane zamówienia sprzedaży, które mogą być agregowane według wymiarów klienta, produktu, sklepu i czasu (na przykład w celu łatwego znalezienia miesięcznego całkowitego przychodu ze sprzedaży według produktu dla każdego sklepu). Ten rodzaj schematu tabeli faktów i wymiarów jest nazywany schematem gwiazdy, choć często jest rozszerzany na schemat płatka śniegu, dodając dodatkowe tabele powiązane z tabelami wymiarów do reprezentowania hierarchii wymiarowych (na przykład produkt może być powiązany z kategoriami produktów). Magazyn danych jest doskonałym wyborem, gdy masz dane transakcyjne, które mogą być zorganizowane w ustrukturyzowany schemat tabel i chcesz użyć języka SQL do wykonywania zapytań.

Magazyny typu data lake

Diagram przedstawiający magazyn typu data lake, w którym pliki są abstrakcjonowane przez tabele.

Usługa Data Lake to magazyn plików, zwykle w rozproszonym systemie plików w celu uzyskania dostępu do danych o wysokiej wydajności. Technologie takie jak Spark lub Hadoop są często używane do przetwarzania zapytań dotyczących przechowywanych plików i zwracania danych na potrzeby raportowania i analizy. Te systemy często stosują podejście schematu do odczytu w celu zdefiniowania schematów tabelarycznych w częściowo ustrukturyzowanych plikach danych w momencie, gdy dane są odczytywane do analizy, bez stosowania ograniczeń podczas ich przechowywania. Magazyny Data Lake doskonale nadają się do obsługi kombinacji ustrukturyzowanych, częściowo ustrukturyzowanych, a nawet nieustrukturyzowanych danych, które mają być analizowane bez konieczności wymuszania schematu podczas zapisywania danych w magazynie.

Podejścia hybrydowe

Możesz użyć hybrydowego podejścia, które łączy funkcje magazynów typu data lake i data warehouse w usłudze Data Lakehouse. Nieprzetworzone dane są przechowywane jako pliki w usłudze Data Lake, a punkty końcowe analizy SQL usługi Microsoft Fabric uwidaczniają je jako tabele, które mogą być odpytywane przy użyciu języka SQL. Podczas tworzenia usługi Lakehouse za pomocą usługi Microsoft Fabric punkt końcowy analizy SQL jest tworzony automatycznie. Usługa Data lakehouses to stosunkowo nowe podejście w systemach opartych na platformie Spark i są włączone za pomocą technologii takich jak Delta Lake, co dodaje możliwości magazynu relacyjnego do platformy Spark, dzięki czemu można definiować tabele, które wymuszają schematy i spójność transakcyjną, obsługują źródła danych ładowane wsadowo i przesyłane strumieniowo oraz udostępniają interfejs API SQL do wykonywania zapytań.

Usługi platformy Azure dla magazynów analitycznych

Na platformie Azure istnieje kilka usług, których można użyć do zaimplementowania magazynu analitycznego na dużą skalę, w tym:

Microsoft Fabric to ujednolicone, kompleksowe rozwiązanie do analizy danych na dużą skalę. Łączy wiele technologii i możliwości, dzięki czemu można połączyć integralność danych i niezawodność skalowalnego, wysokowydajnego magazynu danych relacyjnych opartych na programie SQL Server z elastycznością usługi Data Lake i typu open source platformy Apache Spark. Obejmuje ona również natywną obsługę analizy dzienników i telemetrii za pomocą analizy w czasie rzeczywistym w usłudze Microsoft Fabric, a także wbudowane potoki danych na potrzeby pozyskiwania i przekształcania danych. Każde środowisko produktu Microsoft Fabric ma swój własny dom, na przykład strona główna usługi Data Factory. Każda strona główna sieci szkieletowej wyświetla utworzone elementy i mają uprawnienia do użycia ze wszystkich obszarów roboczych, do których uzyskujesz dostęp. Usługa Microsoft Fabric to doskonały wybór, jeśli chcesz utworzyć pojedyncze, ujednolicone rozwiązanie analityczne.

Zrzut ekranu przedstawiający logo usługi Azure Databricks. Azure Databricks to implementacja platformy Azure popularnej platformy Databricks. Usługa Databricks to kompleksowe rozwiązanie do analizy danych oparte na platformie Apache Spark i oferuje natywne funkcje SQL, a także klastry Spark zoptymalizowane pod kątem obciążeń na potrzeby analizy danych i nauki o danych. Usługa Databricks udostępnia interaktywny interfejs użytkownika, za pomocą którego można zarządzać systemem, a dane można eksplorować w notesach interaktywnych. Ze względu na typowe użycie na wielu platformach w chmurze warto rozważyć użycie usługi Azure Databricks jako magazynu analitycznego, jeśli chcesz korzystać z istniejącej wiedzy z platformą lub jeśli musisz działać w środowisku wielochmurowym lub obsługiwać rozwiązanie przenośne w chmurze.

Uwaga

Każda z tych usług może być uważana za magazyn danych analitycznych, w tym sensie, że udostępniają schemat i interfejs, za pomocą którego można wykonywać zapytania dotyczące danych. Jednak w wielu przypadkach dane są rzeczywiście przechowywane w usłudze Data Lake, a usługa służy do przetwarzania danych i uruchamiania zapytań. Niektóre rozwiązania mogą nawet łączyć korzystanie z tych usług. Proces pozyskiwania wyodrębniania, ładowania i przekształcania (ELT) może kopiować dane do magazynu data lake, a następnie używać jednej z tych usług do przekształcania danych, a drugiego w celu wykonania względem nich zapytań. Na przykład potok może używać notesu uruchomionego w usłudze Azure Databricks do przetwarzania dużej ilości danych w usłudze Data Lake, a następnie załadować go do tabel w usłudze Microsoft Fabric Warehouse.

Eksplorowanie magazynów danych analitycznych

Magazyny danych

Magazyny typu data lake

Podejścia hybrydowe

Usługi platformy Azure dla magazynów analitycznych

Opinia