Przewodnik po decyzjach dotyczących usługi Microsoft Fabric: działanie kopiowania, przepływ danych lub platforma Spark

Artykuł
01/26/2025

Skorzystaj z tego przewodnika referencyjnego i przykładowych scenariuszy, aby ułatwić podjęcie decyzji, czy potrzebujesz działania kopiowania, przepływu danych lub platformy Spark dla obciążeń usługi Microsoft Fabric.

Działanie kopiowania, przepływ danych i właściwości platformy Spark

	Działanie Kopiowania Potoku	Dataflow Gen 2	iskra
Przypadek użycia	Migracja usługi Data Lake i magazynu danych, pozyskiwanie danych, lekkie przekształcanie	Pozyskiwanie danych, przekształcanie danych, porządkowanie danych profilowanie danych	Pozyskiwanie danych, przekształcanie danych, przetwarzanie danych profilowanie danych
podstawowa osoba dewelopera	Inżynier danych, integrator danych	Inżynier danych, integrator danych, analityk biznesowy	Inżynier danych, analityk danych, programista danych
podstawowy zestaw umiejętności deweloperów	ETL, SQL JSON	ETL, M, SQL	Spark (Scala, Python, Spark SQL, R)
kod napisany	Brak kodu, niski kod	Brak kodu, niski kod	Kod
objętość danych	Od niskiego do wysokiego	od niskiego do wysokiego	Od najniższego do najwyższego
interfejs rozwojowy	Czarodziej płótno	Power Query	Notatnik Definicja zadania platformy Spark
źródeł	30+ łączniki	150+ łączniki	Setki bibliotek platformy Spark
Miejsca docelowe	18+ łączniki	Lakehouse, Azure SQL Database Azure Data Explorer, Analiza usługi Azure Synapse	Setki bibliotek platformy Spark
złożoność transformacji	Niski: lightweight — konwersja typów, mapowanie kolumn, scalanie/dzielenie plików, spłaszczanie hierarchii	Od niskiego do wysokiego Ponad 300 funkcji przekształcania	Od najniższego do najwyższego obsługa natywnych bibliotek Spark i open source

Zapoznaj się z następującymi trzema scenariuszami, aby uzyskać pomoc dotyczącą wybierania sposobu pracy z danymi w usłudze Fabric.

Scenariusz1

Leo, inżynier danych, musi pozyskiwać dużą ilość danych z systemów zewnętrznych, zarówno lokalnych, jak i w chmurze. Te systemy zewnętrzne obejmują bazy danych, systemy plików i interfejsy API. Leo nie chce pisać i obsługiwać kodu dla każdego łącznika ani operacji przenoszenia danych. Chce przestrzegać najlepszych praktyk dotyczących warstw medalu: brązowej, srebrnej i złotej. Leo nie ma doświadczenia z platformą Spark, więc preferuje jak najwięcej przeciągania i upuszczania interfejsu użytkownika przy minimalnym kodowaniu. Chce również przetwarzać dane zgodnie z harmonogramem.

Pierwszym krokiem jest pobranie surowych danych do jeziora "lakehouse" warstwy brązowej z zasobów danych platformy Azure oraz różnych źródeł innych firm, takich jak Snowflake Web, REST, AWS S3, GCS itp. Chce skonsolidowanego magazynu typu lakehouse, tak aby wszystkie dane z różnych źródeł biznesowych, lokalnych i w chmurze znajdowały się w jednym miejscu. Leo przegląda opcje i wybiera działanie kopiowania potoku jako odpowiedni wybór dla jego nieprzetworzonej kopii binarnej. Ten wzorzec dotyczy zarówno odświeżania danych historycznych, jak i przyrostowych. Dzięki funkcji kopiowania Leo może załadować dane Gold do magazynu danych bez potrzeby programowania, jeśli zajdzie taka konieczność, a potoki zapewniają pozyskiwanie danych na dużą skalę, które umożliwia transfer danych na poziomie petabajtów. Działanie kopiowania to najlepszy wybór bezkodowy i niskokodowy do przenoszenia petabajtów danych do jezior danych i hurtowni danych z różnorodnych źródeł, zarówno ad hoc, jak i zgodnie z harmonogramem.

Scenariusz 2

Mary jest inżynierem danych z głęboką wiedzą na temat wielu wymagań raportowania analitycznego LOB. Zespół nadrzędny pomyślnie zaimplementował rozwiązanie do migrowania danych historycznych i przyrostowych wielu loB do wspólnej usługi lakehouse. Mary ma za zadanie oczyścić dane, zastosować logikę biznesową i załadować je do wielu miejsc docelowych (takich jak Azure SQL DB, ADX i lakehouse) w ramach przygotowań do odpowiednich zespołów raportowania.

Mary jest doświadczonym użytkownikiem dodatku Power Query, a ilość danych znajduje się w niskim do średnim zakresie, aby osiągnąć żądaną wydajność. Przepływy danych zapewniają interfejsy bez kodu lub niskiego poziomu kodu do pozyskiwania danych z setek źródeł danych. Dzięki przepływom danych można przekształcać dane przy użyciu ponad 300 opcji przekształcania danych i zapisywać wyniki w wielu miejscach docelowych z łatwym w użyciu i bardzo wizualnym interfejsem użytkownika. Mary przegląda opcje i decyduje, że warto użyć Dataflow Gen 2 jako preferowanej opcji transformacji.

Scenariusz3

Adam jest inżynierem danych pracującym w dużej firmie zajmującej się sprzedażą detaliczną, która korzysta z usługi Lakehouse do przechowywania i analizowania danych klientów. W ramach swojej pracy Adam jest odpowiedzialny za tworzenie i konserwowanie potoków danych, które wyodrębniają, przekształcają i ładują dane do magazynu typu lakehouse. Jednym z wymagań biznesowych firmy jest przeprowadzenie analizy opinii klientów w celu uzyskania wglądu w ich doświadczenia oraz poprawy świadczonych usług.

Adam decyduje, że najlepszym rozwiązaniem jest użycie Spark do utworzenia logiki wyodrębniania i przekształcania. Platforma Spark udostępnia rozproszoną platformę obliczeniową, która może przetwarzać duże ilości danych równolegle. Pisze aplikację Platformy Spark przy użyciu języka Python lub Scala, która odczytuje ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane dane z usługi OneLake na potrzeby przeglądów i opinii klientów. Aplikacja oczyszcza, przekształca i zapisuje dane w tabelach Delta w Lakehouse. Dane są następnie gotowe do użycia na potrzeby analizy podrzędnej.

Udostępnij za pośrednictwem

Przewodnik po decyzjach dotyczących usługi Microsoft Fabric: działanie kopiowania, przepływ danych lub platforma Spark

Działanie kopiowania, przepływ danych i właściwości platformy Spark

Scenariusz1

Scenariusz 2

Scenariusz3

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Przewodnik po decyzjach dotyczących usługi Microsoft Fabric: działanie kopiowania, przepływ danych lub platforma Spark

Działanie kopiowania, przepływ danych i właściwości platformy Spark

Scenariusz1

Scenariusz 2

Scenariusz3

Powiązana zawartość

Opinia

Dodatkowe zasoby