Udostępnij za pośrednictwem


Przewodnik po decyzjach dotyczących usługi Microsoft Fabric: wybieranie magazynu danych

Skorzystaj z tego przewodnika referencyjnego i przykładowych scenariuszy, aby ułatwić wybór magazynu danych dla obciążeń usługi Microsoft Fabric.

Właściwości magazynu danych

Użyj tych informacji do porównywania magazynów danych usługi Fabric, takich jak magazyn, lakehouse, eventhouse, baza danych SQL i datamart usługi Power BI, na podstawie wolumenu danych, typu, profilu dewelopera, umiejętności, operacji i innych funkcjonalności. Te porównania są zorganizowane w następujące dwie tabele:

Tabela 1 z 2 Lakehouse magazyn Eventhouse
objętość danych Nieograniczony Nieograniczony Nieograniczony
typ danych Niestrukturalny
częściowo ustrukturyzowane,
Uporządkowany
Strukturalny
częściowo ustrukturyzowane (JSON)
Niestrukturalny
półustrukturyzowane
Ustrukturyzowany
podstawowa osoba dewelopera Inżynier danych, analityk danych Deweloper magazynu danych, architekt danych, inżynier danych, deweloper bazy danych Deweloper aplikacji, analityk danych, inżynier danych
podstawowe umiejętności deweloperskie Spark (Scala, PySpark, Spark SQL, R) SQL Brak kodu, KQL, SQL
dane zorganizowane przez Foldery i pliki, bazy danych i tabele Bazy danych, schematy i tabele Bazy danych, schematy i tabele
operacje odczytu Spark, T-SQL T-SQL, Spark* KQL, T-SQL, Spark
operacje zapisu Spark (Scala, PySpark, Spark SQL, R) Język T-SQL KQL, Spark, ekosystem łączników
Transakcje z wieloma tabelami Nie Tak Tak, w przypadku zasilania wieloma tabelami
podstawowy interfejs programisty Notesy platformy Spark, definicje zadań platformy Spark Skrypty SQL Zestaw zapytań KQL, baza danych KQL
Bezpieczeństwo Zabezpieczenia na poziomie wiersza (RLS), CLS**, poziom tabeli (T-SQL), brak dla Spark poziom obiektów, RLS (zabezpieczenia na poziomie wiersza), CLS, DDL/DML, dynamiczne maskowanie danych Zabezpieczenia na poziomie wiersza
Dostęp do danych za pomocą skrótów Tak Tak, za pośrednictwem punktu końcowego analizy SQL Tak
może być źródłem skrótów Tak (pliki i tabele) Tak (tabele) Tak
Zapytanie między elementami Tak Tak Tak
Zaawansowana analityka Interfejs do przetwarzania danych na dużą skalę, wbudowaną równoległość danych i tolerancję błędów Interfejs do przetwarzania danych na dużą skalę, wbudowanego równoległego przetwarzania danych i odporności na uszkodzenia Elementy natywne szeregów czasowych, pełne możliwości geoprzestrzeni i zapytań
Obsługa formatowania zaawansowanego Tabele zdefiniowane przy użyciu formatu plików takich jak PARQUET, CSV, AVRO, JSON oraz dowolnego formatu pliku zgodnego z Apache Hive. Tabele zdefiniowane przy użyciu formatów plików takich jak PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z platformą Apache Hive Pełne indeksowanie wolnych danych tekstowych i częściowo ustrukturyzowanych, takich jak JSON
opóźnienie ingestii Dostępne natychmiast na potrzeby wykonywania zapytań Dostępne natychmiast na potrzeby wykonywania zapytań Kolejkowane pobieranie i pobieranie strumieniowe mają kilkusekundowe opóźnienie.

* Platforma Spark obsługuje odczytywanie z tabel przy użyciu skrótów, nie obsługuje jeszcze uzyskiwania dostępu do widoków, procedur składowanych, funkcji itp.

Tabela 2 z 2 Fabric baza danych SQL Datamart Power BI
objętość danych 4 terabajty Do 100 GB
Typ danych Strukturalnych
częściowo ustrukturyzowane,
Niestrukturalny
Ustrukturyzowany
podstawowa osoba dewelopera Deweloper sztucznej inteligencji, deweloper aplikacji, deweloper bazy danych, administrator bazy danych Naukowiec danych, analityk danych
podstawowe umiejętności deweloperskie SQL Brak kodu, SQL
dane zorganizowane przez Bazy danych, schematy, tabele Baza danych, tabele, zapytania
operacje odczytu Język T-SQL Spark, T-SQL
operacje zapisu Język T-SQL Przepływy danych, T-SQL
Transakcje z wieloma tabelami Tak, pełna zgodność ACID Nie
podstawowy interfejs programisty Skrypty SQL Power BI
Bezpieczeństwo Poziom obiektu, zabezpieczenia na poziomie wiersza, CLS, DDL/DML, dynamiczne maskowanie danych Wbudowany edytor RLS
Dostęp do danych za pomocą skrótów Tak Nie
może być źródłem skrótów Tak (tabele) Nie
Zapytanie między elementami Tak Nie
Zaawansowana analityka Funkcje analityczne T-SQL, dane replikowane do formatu parquet delta w OneLake na potrzeby analiz. Interfejs do przetwarzania danych z automatycznym dostrajaniem wydajności
Obsługa formatowania zaawansowanego Obsługa tabel OLTP, JSON, vector, graph, XML, spatial, key-value Tabele zdefiniowane przy użyciu formatów plików PARQUET, CSV, AVRO, JSON i dowolnego formatu pliku zgodnego z Apache Hive
opóźnienie przetwarzania Dostępne natychmiast na potrzeby wykonywania zapytań Dostępne natychmiast na potrzeby wykonywania zapytań

** Zabezpieczenia na poziomie kolumny dostępne w usłudze Lakehouse za pośrednictwem punktu końcowego analizy SQL przy użyciu języka T-SQL.

Scenariuszy

Przejrzyj te scenariusze, aby uzyskać pomoc w wyborze magazynu danych w Fabric.

Scenariusz 1

Susan, profesjonalny deweloper, jest nowym deweloperem w usłudze Microsoft Fabric. Są gotowi do rozpoczęcia czyszczenia, modelowania i analizowania danych, ale muszą zdecydować, czy zbudować magazyn danych czy jeziorodom danych (lakehouse). Po zapoznaniu się ze szczegółami w poprzedniej tabeli główne punkty decyzyjne to dostępny zestaw umiejętności i potrzeba transakcji obejmujących wiele tabel.

Susan spędziła wiele lat na budowaniu magazynów danych na silnikach relacyjnych baz danych i zna składnię oraz funkcjonalność języka SQL. Myśląc o większym zespole, główni konsumenci tych danych są również wykwalifikowani w SQL i narzędziach analitycznych SQL. Susan decyduje się na użycie magazynu usługi Fabric, co pozwala zespołowi na interakcję głównie z językiem T-SQL, a także umożliwia wszystkim użytkownikom usługi Spark w organizacji dostęp do danych.

Susan tworzy nowy magazyn danych i współdziała z nim przy użyciu języka T-SQL, podobnie jak w przypadku innych baz danych programu SQL Server. Większość istniejącego kodu T-SQL, który napisała, aby skompilować swój magazyn w programie SQL Server, będzie działać w magazynie danych usługi Fabric, co ułatwia przejście. Jeśli zdecyduje się, może nawet używać tych samych narzędzi, które współpracują ze swoimi innymi bazami danych, takimi jak SQL Server Management Studio. Korzystając z edytora SQL w portalu Fabric, Susan i inni członkowie zespołu piszą zapytania analityczne odwołujące się do innych magazynów danych i tabel delty w lakehouse'ach, po prostu używając nazw trójczłonowych do wykonywania zapytań międzybazodanowych.

Scenariusz 2

Rob, inżynier danych, musi przechowywać i modelować kilka terabajtów danych w Fabric. Zespół ma mieszankę umiejętności PySpark i T-SQL. Większość zespołu uruchamiającego zapytania T-SQL jest konsumentami i dlatego nie musi pisać instrukcji INSERT, UPDATE ani DELETE. Pozostali deweloperzy dobrze pracują w notesach, a ponieważ dane są przechowywane w funkcji Delta, mogą wchodzić w interakcje z podobną składnią SQL.

Rob decyduje się na użycie lakehouse, co pozwala zespołowi inżynierów danych na korzystanie z różnych umiejętności przy pracy z danymi, umożliwiając jednocześnie członkom zespołu, którzy są wysoko wykwalifikowani w języku T-SQL, korzystanie z danych.

Scenariusz 3

Ash, deweloper obywatelski, jest deweloperem usługi Power BI. Znają one program Excel, usługę Power BI i pakiet Office. Muszą utworzyć produkt danych dla jednostki biznesowej. Wiedzą, że nie mają umiejętności tworzenia magazynu danych lub magazynu danych typu lakehouse, a te wydają się być zbyt zaawansowane dla ich potrzeb i objętości danych. Zapoznają się ze szczegółami w poprzedniej tabeli i zobaczą, że główne punkty decyzyjne to ich własne umiejętności, potrzeba możliwości samoobsługi, obsługi bez kodowania oraz wolumenu danych poniżej 100 GB.

Ash współpracuje z analitykami biznesowymi zaznajomionymi z usługami Power BI i Microsoft Office i wie, że mają już subskrypcję pojemności Premium. Gdy myślą o większym zespole, zdają sobie sprawę, że głównymi odbiorcami tych danych są analitycy, zaznajomieni z narzędziami analitycznymi niewymagającymi kodowania i SQL. Ash decyduje się na użycie datamartu Power BI , co umożliwia zespołowi szybkie rozwijanie funkcji w środowisku bez kodu. Zapytania można wykonywać za pośrednictwem usług Power BI i T-SQL, a także zezwalać dowolnym użytkownikom platformy Spark w organizacji na dostęp do danych.

Scenariusz 4

Daisy jest analitykiem biznesowym doświadczonym w korzystaniu z usługi Power BI do analizowania wąskich gardeł łańcucha dostaw dla dużej globalnej sieci detalicznej. Muszą one utworzyć skalowalne rozwiązanie danych, które może obsługiwać miliardy wierszy danych i może służyć do tworzenia pulpitów nawigacyjnych i raportów, które mogą służyć do podejmowania decyzji biznesowych. Dane pochodzą z zakładów, dostawców, nadawców i innych źródeł w różnych formatach ustrukturyzowanych, częściowo ustrukturyzowanych i bez struktury.

Daisy decyduje się na użycie Eventhouse ze względu na skalowalność, szybkie czasy odpowiedzi, zaawansowane możliwości analizy, w tym analizę szeregów czasowych, funkcje geoprzestrzenne i szybki tryb zapytań bezpośrednich w usłudze Power BI. Zapytania można wykonywać przy użyciu usług Power BI i KQL w celu porównania między bieżącymi i poprzednimi okresami, szybko zidentyfikować pojawiające się problemy lub zapewnić geoprzestrzenną analizę tras lądowych i morskich.

Scenariusz 5

Kirby to architekt aplikacji doświadczony w tworzeniu aplikacji platformy .NET na potrzeby danych operacyjnych. Potrzebują bazy danych o wysokiej współbieżności z kompletną zgodnością transakcji ACID i silnie egzekwowanymi kluczami obcymi dla zachowania integralności relacyjnej. Kirby chce korzystać z automatycznego dostrajania wydajności, aby uprościć codzienne zarządzanie bazami danych.

Kirby decyduje o bazy danych SQL w usłudze Fabric, z tym samym aparatem usługi SQL Database co usługa Azure SQL Database. Bazy danych SQL w Fabric są automatycznie skalowane w celu zaspokojenia zapotrzebowania w ciągu dnia pracy. Mają one pełne możliwości tabel transakcyjnych i elastyczność poziomów izolacji transakcji, od poziomu serializowalnego do odczytu zatwierdzonego jako migawka. Baza danych SQL w usłudze Fabric automatycznie tworzy i usuwa nieklastrowane indeksy na podstawie silnych sygnałów z planów wykonania obserwowanych po czasie.

W scenariuszu Kirby dane z aplikacji operacyjnej muszą być przyłączone do innych danych w usłudze Fabric: w usłudze Spark, w magazynie i ze zdarzeń w czasie rzeczywistym w usłudze Eventhouse. Każda baza danych Fabric zawiera punkt końcowy analizy SQL, dzięki czemu możliwy jest dostęp do danych w czasie rzeczywistym z platformy Spark lub z zapytań usługi Power BI przy użyciu trybu DirectLake. Te rozwiązania do raportowania chronią podstawową operacyjną bazę danych przed obciążeniem wynikającym z obciążeń analitycznych i unikają denormalizacji. Kirby ma również istniejące dane operacyjne w innych bazach danych SQL i musi importować te dane bez transformacji. Aby zaimportować istniejące dane operacyjne bez konwersji typu danych, Kirby projektuje potoki danych przy użyciu usługi Fabric Data Factory w celu zaimportowania danych do bazy danych Fabric SQL.