Eksplorowanie usługi Microsoft Fabric Lakehouse

Ukończone

Usługa Lakehouse przedstawia się jako bazę danych i jest oparta na usłudze Data Lake przy użyciu tabel formatu delta. Usługa Lakehouse łączy możliwości analityczne oparte na języku SQL magazynu danych relacyjnych oraz elastyczność i skalowalność magazynu danych typu data lake. Usługa Lakehouses przechowuje wszystkie formaty danych i może być używana z różnymi narzędziami analitycznymi i językami programowania. Jako rozwiązania oparte na chmurze usługi Lakehouse mogą być skalowane automatycznie i zapewniać wysoką dostępność i odzyskiwanie po awarii.

Diagram przedstawiający strukturę folderów typu data lake i możliwości relacyjne magazynu danych.

Niektóre zalety jeziora to:

  • Usługa Lakehouses używa aparatów Spark i SQL do przetwarzania danych na dużą skalę i obsługi uczenia maszynowego lub analizy modelowania predykcyjnego.
  • Dane usługi Lakehouse są zorganizowane w formacie schema-on-read, co oznacza, że schemat jest definiowany zgodnie z potrzebami, a nie ze wstępnie zdefiniowanym schematem.
  • Usługa Lakehouses obsługuje transakcje ACID (niepodzielność, spójność, izolacja, trwałość) za pośrednictwem tabel sformatowanych przez usługę Delta Lake w celu zapewnienia spójności i integralności danych.
  • Lakehouses to jedna lokalizacja, w przypadku których inżynierowie danych, analitycy danych i analitycy danych mogą uzyskiwać dostęp do danych i korzystać z nich.

Usługa Lakehouse to świetna opcja, jeśli chcesz skalowalne rozwiązanie analityczne, które zapewnia spójność danych. Ważne jest, aby ocenić konkretne wymagania, aby określić, które rozwiązanie jest najlepsze.

Ładowanie danych do magazynu lakehouse

Usługa Fabric lakehouses to centralny element rozwiązania analitycznego. Aby pozyskiwać i przekształcać dane przed załadowaniem do magazynu lakehouse, możesz postępować zgodnie z procesem ETL (wyodrębnianie, przekształcanie, przekształcanie, przekształcanie i pozyskiwanie danych).

Dane można pozyskiwać w wielu typowych formatach z różnych źródeł, w tym plików lokalnych, baz danych lub interfejsów API. Możesz również utworzyć skróty sieci szkieletowej do danych w zewnętrznych źródłach, takich jak Azure Data Lake Store Gen2 lub OneLake. Eksplorator usługi Lakehouse umożliwia przeglądanie plików, folderów, skrótów i tabel oraz wyświetlanie ich zawartości na platformie Sieci szkieletowej.

Pozyskane dane można przekształcić, a następnie załadować przy użyciu platformy Apache Spark z notesami lub przepływami danych Gen2. Użyj potoków usługi Data Factory, aby zorganizować różne działania ETL i umieścić przygotowane dane w magazynie lakehouse.

Uwaga

Przepływy danych Gen2 są oparte na dodatku Power Query — znanym narzędziu dla analityków danych korzystających z programu Excel lub usługi Power BI, które zapewnia wizualną reprezentację przekształceń jako alternatywę dla tradycyjnego programowania.

Możesz korzystać z jeziora z wielu powodów, w tym:

  • Analizowanie przy użyciu języka SQL.
  • Trenowanie modeli uczenia maszynowego.
  • Wykonywanie analizy danych w czasie rzeczywistym.
  • Tworzenie raportów w usłudze Power BI.

Zabezpieczanie jeziora

Dostęp usługi Lakehouse jest zarządzany za pośrednictwem obszaru roboczego lub udostępniania na poziomie elementu. Role obszarów roboczych powinny być używane dla współpracowników, ponieważ te role udzielają dostępu do wszystkich elementów w obszarze roboczym. Udostępnianie na poziomie elementu najlepiej nadaje się do udzielania dostępu do potrzeb tylko do odczytu, takich jak analiza lub opracowywanie raportów usługi Power BI.

Usługa Fabric lakehouse obsługuje również funkcje ładu danych, w tym etykiety poufności, i można je rozszerzyć przy użyciu usługi Microsoft Purview z dzierżawą usługi Fabric.

Uwaga

Aby uzyskać więcej informacji, zobacz dokumentację Zabezpieczenia w usłudze Microsoft Fabric .