Greenfield lakehouse w usłudze Microsoft Fabric

Microsoft Fabric
Power BI

To przykładowe obciążenie ilustruje rozwiązanie greenfield do tworzenia skalowalnej platformy danych przy użyciu usługi Microsoft Fabric i modelu projektowania lakehouse. Sieć szkieletowa to platforma, która integruje magazyn danych, przetwarzanie i analizę. Greenfield Lakehouse zapewnia czysty początek projektowania wydajnego, przyszłego ekosystemu danych.

Architektura

Diagram ilustrujący rozwiązanie greenfield do tworzenia niezawodnej, skalowalnej platformy danych przy użyciu modelu projektowania lakehouse w usłudze Microsoft Fabric.

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

Ten projekt odzwierciedla architekturę lambda, która oddziela przetwarzanie danych na dwie warstwy:

  • Warstwa przetwarzania wsadowego o dużej ilości, która jest okresowo przetwarzana na potrzeby analizy historycznej
  • Warstwa przetwarzania strumieniowego o małych opóźnieniach i wysokiej przepływności na potrzeby analizy w czasie rzeczywistym

Ścieżka przetwarzania strumienia pozyskuje i przetwarza dane niemal w czasie rzeczywistym, co sprawia, że idealnie nadaje się do pulpitów nawigacyjnych i wykrywania anomalii. Ścieżka przetwarzania wsadowego obsługuje kompletny zestaw danych, zapewniając spójność danych i umożliwiając złożoną analizę historyczną. To dwuwymiarowe podejście oferuje szczegółowe informacje w czasie rzeczywistym przy zachowaniu niezawodnego rekordu na potrzeby późniejszej eksploracji.

Ścieżka zimna: analiza usługi Batch

Magazyny danych, które opierają się na semantyce relacyjnej SQL, są konwencjonalnym podejściem do analizy danych historycznych. Jednak ten wzorzec ewoluował wraz z upływem czasu, a magazyny lakehouse są obecnym standardem branżowym na potrzeby analizy danych wsadowych. Usługa Lakehouse jest oparta na formatach plików typu open source i, w przeciwieństwie do tradycyjnych magazynów danych, zaspokaja wszystkie typy danych: ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane. Warstwa obliczeniowa w usłudze Lakehouse jest zwykle oparta na platformie Apache Spark, która jest preferowanym aparatem przetwarzania danych big data ze względu na możliwości rozproszonego przetwarzania danych i wysoką wydajność. Sieć szkieletowa oferuje natywne środowisko typu lakehouse oparte na formacie pliku usługi Delta Lake typu open source i zarządzanym środowisku uruchomieniowym platformy Spark.

Implementacja lakehouse zwykle używa architektury medalonu. W tej architekturze warstwa z brązu zawiera dane pierwotne, warstwa srebra zawiera zweryfikowane i deduplikowane dane, a warstwa złota zawiera wysoce wyrafinowane dane, które są odpowiednie do obsługi przypadków użycia biznesowych. Takie podejście działa we wszystkich organizacjach i branżach. Chociaż jest to ogólne podejście, można dostosować je pod kątem wymagań. Ta architektura pokazuje, jak utworzyć magazyn lakehouse przy użyciu natywnych składników sieci Szkieletowej.

Pozyskiwanie danych za pośrednictwem usługi Data Factory

(Zobacz krok 1 na diagramie).

Funkcja usługi Azure Data Factory w usłudze Fabric udostępnia możliwości usługi Azure Data Factory, która jest powszechnie używaną usługą integracji danych. Mimo że usługa Data Factory zapewnia głównie możliwości orkiestracji za pośrednictwem potoków, funkcja w usłudze Fabric zapewnia zarówno potoki, jak i przepływy danych.

  • Potoki danych umożliwiają stosowanie wbudowanych możliwości orkiestracji danych w celu tworzenia elastycznych przepływów pracy danych spełniających potrzeby przedsiębiorstwa.
  • Przepływy danych umożliwiają korzystanie z ponad 300 przekształceń w projektancie przepływów danych. Te przekształcenia umożliwiają przekształcanie danych przy użyciu interfejsu graficznego podobnego do tego w dodatku Power Query. Te przekształcenia obejmują inteligentne przekształcenia danych oparte na sztucznej inteligencji. Przepływy danych mogą również zapisywać dane w natywnych magazynach danych w usłudze Fabric, takich jak lakehouse, warehouse, Azure SQL i Kusto Database.

W zależności od wymagań można użyć jednej lub obu tych funkcji, aby utworzyć rozbudowaną strukturę pozyskiwania opartych na metadanych. Dane z różnych systemów źródłowych można dołączyć zgodnie ze zdefiniowanym harmonogramem lub za pomocą wyzwalaczy zdarzeń.

Przekształcenia danych

(Zobacz krok 2 na diagramie).

Istnieją dwa podejścia do przygotowywania i przekształcania danych. Jeśli wolisz korzystać z funkcji code-first, możesz użyć notesów platformy Spark. Jeśli wolisz środowisko z małą ilością kodu lub bez kodu, możesz użyć przepływów danych.

Notesy sieci szkieletowej to ważne narzędzie do tworzenia zadań platformy Apache Spark. Zapewniają interaktywną powierzchnię internetową, której inżynierowie danych używają do pisania kodu. Udostępniają również rozbudowane wizualizacje i umożliwiają korzystanie z tekstu markdown. Inżynierowie danych piszą kod na potrzeby pozyskiwania danych, przygotowywania danych i przekształcania danych. Analitycy danych używają notesów do tworzenia rozwiązań uczenia maszynowego. Na przykład używają ich do tworzenia eksperymentów i modeli oraz śledzenia i wdrażania modeli.

Każdy obszar roboczy w usłudze Fabric jest dostarczany z pulą początkową platformy Spark, która jest używana do domyślnych zadań platformy Spark. W przypadku pul startowych można oczekiwać szybkiej inicjowania sesji platformy Apache Spark, zwykle w ciągu od 5 do 10 sekund bez konieczności ręcznej konfiguracji. Uzyskasz również elastyczność dostosowywania pul platformy Apache Spark zgodnie z wymaganiami inżynierii danych. Węzły, skalowanie automatyczne i dynamiczne przydzielanie funkcji wykonawczych można określić na podstawie wymagań dotyczących zadań platformy Spark. W przypadku dostosowań środowiska uruchomieniowego platformy Spark można użyć środowisk. W środowisku można skonfigurować właściwości obliczeniowe, wybrać różne środowiska uruchomieniowe i skonfigurować zależności pakietów bibliotek na podstawie wymagań dotyczących obciążenia.

Przepływy danych umożliwiają wyodrębnianie danych z różnych źródeł, przekształcanie ich przy użyciu szerokiej gamy operacji i opcjonalne ładowanie ich do miejsca docelowego. Tradycyjnie inżynierowie danych poświęcają dużo czasu na wyodrębnianie, przekształcanie i ładowanie danych do formatu eksploatacyjnego na potrzeby analizy podrzędnej. Usługa Dataflow Gen2 zapewnia łatwy, wielokrotnego użytku sposób wykonywania zadań wyodrębniania, przekształcania, ładowania (ETL) przy użyciu wizualnych wskazówek w usłudze Power Query Online. Przepływ danych zachowuje wszystkie kroki przekształcania. Aby wykonać inne zadania lub załadować dane do innego miejsca docelowego po przekształceniu, utwórz potok danych i dodaj działanie Dataflow Gen2 do aranżacji potoku.

Ścieżka gorąca: analiza w czasie rzeczywistym

Przetwarzanie danych w czasie rzeczywistym ma kluczowe znaczenie dla firm, które chcą zachować elastyczność, szybko podejmować świadome decyzje i korzystać z natychmiastowych szczegółowych informacji w celu ulepszania operacji i obsługi klientów. W sieci szkieletowej ta funkcja jest zapewniana przez usługę analizy w czasie rzeczywistym. Obejmuje ona kilka funkcji sieci szkieletowej, które są połączone i dostępne za pośrednictwem centrum czasu rzeczywistego. Koncentrator czasu rzeczywistego zapewnia jedno miejsce do przesyłania strumieniowego danych przesyłanych w całej organizacji.

Analiza w czasie rzeczywistym w sieci szkieletowej umożliwia analizowanie i wizualizację danych dla scenariuszy opartych na zdarzeniach, danych przesyłanych strumieniowo i dzienników danych. Łączy ona dane oparte na czasie z różnych źródeł przy użyciu wykazu łączników bez kodu i udostępnia kompleksowe rozwiązanie do pozyskiwania, przekształcania, magazynowania, analizy, wizualizacji, śledzenia, sztucznej inteligencji i akcji czasu rzeczywistego. Mimo że nazwa usługi używa frazy "W czasie rzeczywistym", dane nie muszą być przesyłane strumieniowo przy wysokich szybkościach i woluminach. Analiza w czasie rzeczywistym zapewnia rozwiązania oparte na zdarzeniach, a nie oparte na harmonogramie.

Pozyskiwanie danych w czasie rzeczywistym

(Zobacz krok 3 na diagramie).

Strumienie zdarzeń to funkcja sieci szkieletowej , która umożliwia bez kodu pozyskiwanie zdarzeń w czasie rzeczywistym z różnych źródeł i wysyłanie ich do różnych miejsc docelowych. Umożliwia ona filtrowanie, przekształcanie, agregację i routing danych na podstawie zawartości. Można go również użyć do tworzenia nowych strumieni z istniejących i udostępniania ich w całej organizacji przy użyciu centrum czasu rzeczywistego. Strumienie zdarzeń obsługują wiele źródeł danych i miejsc docelowych danych. Można użyć szerokiego zakresu łączników do źródeł zewnętrznych, takich jak klastry Apache Kafka, źródła przechwytywania zmian danych bazy danych, źródła przesyłania strumieniowego platformy AWS (Kinesis) i Google (GCP Pub/Sub).

Tworzysz strumień zdarzeń, dodasz źródła danych zdarzeń do strumienia, opcjonalnie dodasz przekształcenia, aby przekształcić dane zdarzenia, a następnie przekieerujesz dane do obsługiwanych miejsc docelowych. Usługa Fabric lakehouse jest jednym z obsługiwanych miejsc docelowych, dzięki czemu można przekształcić zdarzenia w czasie rzeczywistym przed ich pozyskiwaniem do jeziora. Zdarzenia w czasie rzeczywistym są konwertowane na format usługi Delta Lake, a następnie przechowywane w wyznaczonych tabelach lakehouse. Ten wzorzec umożliwia scenariusze magazynowania danych i analizę historyczną szybko poruszających się danych.

Analiza w czasie rzeczywistym

(Zobacz krok 4 na diagramie).

W przypadku korzystania z analizy w czasie rzeczywistym w sieci szkieletowej w zależności od przypadków użycia istnieją dwie typowe ścieżki dla danych przesyłanych strumieniowo: elementy refleksu i magazyny zdarzeń.

Refleks jest elementem sieci szkieletowej, który pozwala reagować na wystąpienie warunku danych w miarę ich występowania. Ta reakcja może być prostą wiadomością alertu za pośrednictwem poczty e-mail lub usługi Microsoft Teams lub może obejmować wywoływanie akcji niestandardowej przez wyzwolenie przepływu usługi Power Automate. Możesz również wyzwolić dowolny element tkaniny z refleksów. Wiele przypadków użycia obserwacji jest obsługiwanych przez refleksy, z których jeden reaguje na dane przesyłane strumieniowo, gdy dociera do strumieni zdarzeń.

Magazyn zdarzeń to kolekcja co najmniej jednej bazy danych język zapytań Kusto (KQL). Bazy danych KQL są tworzone dla danych opartych na czasie, przesyłanych strumieniowo ze strukturą, częściowo ustrukturyzowanych i nieustrukturyzowanych danych. Dane są automatycznie indeksowane i partycjonowane na podstawie czasu pozyskiwania, co zapewnia szybkie i złożone możliwości wykonywania zapytań analitycznych, nawet w przypadku strumieni danych. Dane przechowywane w centrach zdarzeń można udostępniać w usłudze OneLake do użytku przez inne procesy sieci szkieletowej. Możesz wykonywać zapytania dotyczące tych danych przy użyciu różnych opcji kodu, niskiej ilości kodu lub braku kodu w sieci szkieletowej, w tym natywnych języka KQL i języka T-SQL w zestawie zapytań KQL.

Pulpity nawigacyjne w czasie rzeczywistym zostały zaprojektowane w celu zapewnienia natychmiastowego wglądu w dane przesyłane strumieniowo do Twoich magazynów zdarzeń. Do pulpitu nawigacyjnego można dodawać różne typy wizualizacji, takie jak wykresy i wykresy, i dostosowywać je do własnych potrzeb. Pulpity nawigacyjne w czasie rzeczywistym służą do szybkiego identyfikowania trendów i anomalii w danych o wysokiej szybkości, które docierają do magazynu zdarzeń. Różnią się one od pulpitów nawigacyjnych usługi Power BI, które są odpowiednie dla obciążeń raportowania analizy biznesowej w przedsiębiorstwie.

Dostarczanie danych

(Zobacz krok 5 na diagramie).

Dostępne są różne opcje z małą ilością kodu lub prokodu umożliwiające korzystanie z danych z magazynów lakehouse i eventhouses usługi Fabric.

Punkt końcowy analizy SQL

Punkt końcowy analizy SQL jest generowany automatycznie dla każdego magazynu lakehouse w usłudze Fabric. Punkt końcowy analizy SQL jest tylko do odczytu. Aby zmodyfikować dane, musisz przełączyć się do trybu lakehouse i użyć platformy Spark. Punkt końcowy analizy SQL można używać bezpośrednio w portalu sieci szkieletowej do wykonywania zapytań dotyczących danych, przełączając się z trybu lakehouse na tryb SQL usługi Lakehouse. Alternatywnie możesz użyć parametry połączenia SQL usługi Lakehouse do nawiązania połączenia przy użyciu narzędzi klienckich, takich jak Power BI, Excel i SQL Server Management Studio. Ta opcja jest odpowiednia dla analityków danych i analityków biznesowych w zespole danych.

Notesy platformy Spark

Notesy to popularny sposób interakcji z danymi lakehouse. Sieć szkieletowa udostępnia interaktywną powierzchnię internetową, która umożliwia pracownikom danych pisanie kodu. Ci pracownicy mogą stosować rozbudowane wizualizacje i tekst markdown. Inżynierowie danych piszą kod na potrzeby pozyskiwania danych, przygotowywania danych i przekształcania danych. Analitycy danych używają notesów do eksploracji danych, tworzenia eksperymentów i modeli uczenia maszynowego oraz śledzenia i wdrażania modeli. Ta opcja jest odpowiednia dla profesjonalnych inżynierów danych i analityków danych.

Power BI

Każdy magazyn lakehouse w usłudze Fabric jest dostarczany ze wstępnie utworzonym domyślnym modelem semantycznym. Jest on tworzony automatycznie podczas konfigurowania magazynu lakehouse i ładowania do niego danych. Te modele dziedziczą logikę biznesową z usługi Lakehouse, aby ułatwić tworzenie raportów i pulpitów nawigacyjnych usługi Power BI bezpośrednio w środowisku usługi Lakehouse. Można również tworzyć niestandardowe modele semantyczne na podstawie określonych wymagań biznesowych w tabelach lakehouse. Podczas tworzenia raportów usługi Power BI w usłudze Lakehouse można użyć trybu Direct Lake, który nie wymaga oddzielnego importowania danych. Ten tryb umożliwia uzyskanie wydajności w pamięci raportów bez przenoszenia danych z magazynu lakehouse.

Niestandardowe interfejsy API

Sieć szkieletowa udostępnia bogatą powierzchnię interfejsu API w swoich elementach. Usługa OneLake zapewnia otwarty dostęp do wszystkich elementów sieci szkieletowej za pośrednictwem interfejsów API i zestawów SDK usługi Azure Data Lake Storage. Dostęp do danych w usłudze OneLake można uzyskać za pomocą dowolnego interfejsu API, zestawu SDK lub narzędzia zgodnego z usługą Data Lake Storage tylko przy użyciu identyfikatora URI usługi OneLake. Dane można przekazywać do usługi Lakehouse przy użyciu Eksplorator usługi Azure Storage lub odczytywać tabelę różnicową za pomocą skrótu z usługi Azure Databricks. Usługa OneLake obsługuje również sterownik azure Blob Filesystem (ABFS), aby uzyskać większą zgodność z usługami Data Lake Storage i Azure Blob Storage. Aby korzystać z danych przesyłanych strumieniowo w aplikacjach podrzędnych, możesz wypychać dane strumienia zdarzeń do niestandardowego punktu końcowego interfejsu API. Następnie możesz korzystać z tych danych wyjściowych przesyłania strumieniowego z usługi Fabric przy użyciu usługi Azure Event Hubs lub protokołu AMQP lub Kafka.

Power Automate

Power Automate to platforma aplikacji o niskim kodzie, której można używać do automatyzowania powtarzających się zadań, a także manipulowania danymi. Element refleksu w usłudze Fabric obsługuje przepływy usługi Power Automate jako miejsce docelowe. Ta integracja umożliwia odblokowanie wielu przypadków użycia i umożliwia wyzwalanie akcji podrzędnych przy użyciu szerokiej gamy łączników dla systemów firmy Microsoft i innych firm.

Składniki

W tym rozwiązaniu są używane następujące składniki.

  • Sieć szkieletowa: kompleksowa platforma analizy danych oparta na chmurze przeznaczona dla przedsiębiorstw. Zapewnia ujednolicone środowisko dla różnych zadań danych, takich jak pozyskiwanie danych, przekształcanie, analiza i wizualizacja.

    • OneLake: centralne centrum dla wszystkich danych w usłudze Fabric. Jest ona zaprojektowana jako open data lake, co oznacza, że może przechowywać dane w formacie natywnym, niezależnie od struktury.

    • Data Factory: oparta na chmurze usługa ETL i orkiestracja na potrzeby zautomatyzowanego przenoszenia i przekształcania danych. Pozwala to zautomatyzować przenoszenie i przekształcanie danych na dużą skalę w różnych źródłach danych.

    • Inżynieria danych: narzędzia umożliwiające zbieranie, przechowywanie, przetwarzanie i analizowanie dużych ilości danych.

    • Nauka o danych: Narzędzia, które umożliwiają wykonywanie kompletnych przepływów pracy nauki o danych na potrzeby wzbogacania danych i uzyskiwania szczegółowych informacji biznesowych.

    • Analiza w czasie rzeczywistym: usługa, która zapewnia możliwości pozyskiwania i przetwarzania strumieni. Dzięki temu można uzyskiwać wgląd w stale przepływające dane, aby umożliwić szybsze podejmowanie decyzji na podstawie trendów i anomalii w czasie rzeczywistym.

    • Copilot: narzędzie, którego można użyć do analizowania danych, generowania szczegółowych informacji oraz tworzenia wizualizacji i raportów w sieci szkieletowej i usłudze Power BI przy użyciu języka naturalnego.

  • Power BI: narzędzie do analizy biznesowej służące do tworzenia interaktywnych pulpitów nawigacyjnych i raportów na potrzeby wizualizowania danych i uzyskiwania szczegółowych informacji.

Alternatywy

Sieć szkieletowa oferuje niezawodny zestaw narzędzi, ale w zależności od konkretnych potrzeb możesz skorzystać z ulepszonych funkcji oferowanych przez alternatywne usługi w ekosystemie platformy Azure.

  • Usługa Azure Databricks może zastąpić lub uzupełnić natywne możliwości inżynierii danych sieci szkieletowej. Usługa Azure Databricks oferuje alternatywę dla przetwarzania danych na dużą skalę, zapewniając oparte na chmurze środowisko Apache Spark. Usługa Azure Databricks zapewnia również wspólny ład w całej infrastrukturze danych i możliwościach umożliwiających korzystanie z kluczowych przypadków użycia, takich jak nauka o danych, inżynieria danych, uczenie maszynowe, sztuczna inteligencja i analiza oparta na języku SQL.

  • Usługa Azure Machine Learning może zastąpić lub uzupełnić natywne narzędzia Nauka o danych sieci szkieletowej. Uczenie maszynowe wykracza poza możliwości eksperymentowania i zarządzania modelami w sieci szkieletowej, dodając możliwości umożliwiające hostowanie modeli dla przypadków użycia wnioskowania online, monitorowanie modeli dryfu i tworzenie niestandardowych aplikacji generowania sztucznej inteligencji.

Szczegóły scenariusza

Ta architektura ma zastosowanie do następujących scenariuszy:

  • Organizacje, które zaczynają się od nowa bez starszych ograniczeń systemowych.
  • Organizacje, które przewidują woluminy danych z zakresu od 0,5 TB do 1,5 TB.
  • Organizacje, które preferują prosty i usprawniony wzorzec, który równoważy kwestie związane z kosztami, złożonością i wydajnością.
  • Organizacje, które potrzebują prostej, ekonomicznej i wysokiej wydajności platformy danych, która spełnia wymagania dotyczące raportowania, analizy i uczenia maszynowego.
  • Organizacje, które chcą zintegrować dane z wielu źródeł w celu uzyskania ujednoliconego widoku.

To rozwiązanie nie jest zalecane w przypadku:

  • Zespoły z bazą danych SQL lub relacyjnymi bazami danych, które mają ograniczone umiejętności w usłudze Apache Spark.
  • Organizacje migrujące ze starszego systemu lub magazynu danych do nowoczesnej platformy.

Kwestie wymagające rozważenia

Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Niezawodność

Niezawodność zapewnia, że aplikacja może spełnić zobowiązania podjęte przez klientów. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca niezawodności.

Sieć szkieletowa automatycznie replikuje zasoby w różnych strefach dostępności bez konieczności konfigurowania. Na przykład podczas awarii całej strefy nie jest wymagana żadna akcja w celu odzyskania strefy. W obszarze Obsługiwane regiony sieć szkieletowa może automatycznie samodzielnie leczyć i ponownie równoważyć, aby korzystać ze strefy w dobrej kondycji.

Zabezpieczenia

Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca zabezpieczeń.

Sieć szkieletowa umożliwia zarządzanie ustawieniami zabezpieczeń, ich kontrolowanie i przeprowadzanie inspekcji zgodnie ze zmieniającymi się potrzebami i wymaganiami. Najważniejsze zalecenia dotyczące zabezpieczeń dotyczące korzystania z sieci szkieletowej obejmują:

  • Uwierzytelnianie. Skonfiguruj logowanie jednokrotne (SSO) w usłudze Microsoft Entra ID, aby zapewnić dostęp z różnych urządzeń i lokalizacji.

  • Kontrola dostępu na podstawie ról (RBAC). Zaimplementuj kontrolę dostępu opartą na obszarze roboczym, aby zarządzać osobami, które mogą uzyskiwać dostęp do określonych zestawów danych i korzystać z nich.

  • Zabezpieczenia sieci. Użyj kontroli zabezpieczeń sieci szkieletowej dla ruchu przychodzącego i wychodzącego podczas nawiązywania połączenia z danymi lub usługami w sieci lub poza nią. Kluczowe funkcje obejmują dostęp warunkowy, łącza prywatne, dostęp do zaufanego obszaru roboczego i zarządzane prywatne punkty końcowe.

  • Dzienniki inspekcji. Użyj szczegółowych dzienników inspekcji udostępnianych przez usługę Fabric, aby śledzić działania użytkowników i zapewnić odpowiedzialność na całej platformie.

Aby uzyskać więcej informacji, zobacz Zabezpieczenia w usłudze Microsoft Fabric.

Optymalizacja kosztów

Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dlaoptymalizacji kosztów.

Sieć szkieletowa oferuje rezerwacje pojemności dla danej liczby jednostek pojemności (CU). Rezerwacje pojemności mogą pomóc w oszczędzeniu kosztów podczas zatwierdzania rezerwacji dla użycia pojemności sieci szkieletowej przez jeden rok.

Aby zmaksymalizować wykorzystanie pojemności sieci szkieletowej, należy wziąć pod uwagę następujące zalecenia:

  • Rightsize F SKU. Aby określić odpowiedni rozmiar pojemności, możesz aprowizować pojemności próbne lub jednostki SKU F z płatnością zgodnie z rzeczywistym użyciem, aby zmierzyć rzeczywisty rozmiar pojemności, który jest potrzebny przed zakupem wystąpienia zarezerwowanego jednostki SKU języka F. Zalecamy przeprowadzenie weryfikacji zakresu koncepcji z reprezentatywnym obciążeniem, monitorowanie użycia aktualizacji cu, a następnie ekstrapolację w celu oszacowania użycia aktualizacji CU w środowisku produkcyjnym. Sieć szkieletowa zapewnia bezproblemowe skalowanie. Możesz zacząć od konserwatywnego rozmiaru pojemności i skalować w górę, jeśli potrzebujesz większej pojemności.
  • Monitorowanie wzorców użycia. Regularne śledzenie i analizowanie użycia w celu zidentyfikowania godzin szczytu i poza szczytem. Dzięki temu można zrozumieć, kiedy zasoby są najczęściej używane, dzięki czemu można zaplanować zadania niekrytyczne w godzinach poza szczytem, aby uniknąć skoków użycia aktualizacji cu.
  • Optymalizowanie zapytań i obciążeń. Upewnij się, że zapytania i obciążenia są zoptymalizowane pod kątem zmniejszenia niepotrzebnego użycia zasobów obliczeniowych. Optymalizowanie zapytań języka DAX, kodu języka Python i innych operacji.
  • Używaj rozerwania i wygładzenia. Korzystaj z funkcji zwiększania i wygładzania sieci Szkieletowej, aby obsługiwać działania intensywnie korzystające z procesora CPU bez konieczności posiadania wyższej jednostki SKU. Może to pomóc w zarządzaniu kosztami przy zachowaniu wydajności. Aby uzyskać więcej informacji, zobacz Ocena i optymalizacja pojemności sieci szkieletowej.
  • Konfigurowanie alertów i powiadomień. Skonfiguruj proaktywne alerty, aby administratorzy pojemności mogli monitorować wysokie użycie zasobów obliczeniowych i zarządzać nimi. Może to umożliwić im podjęcie terminowych akcji, aby zapobiec przekroczeniu kosztów.
  • Implementowanie zarządzania obciążeniami. Zaplanuj zadania uruchamiania dzienników w regularnych godzinach na podstawie dostępności zasobów i zapotrzebowania systemu, aby zoptymalizować użycie pojemności. Aby uzyskać więcej informacji, zobacz Zarządzanie obciążeniami.

Należy również pamiętać o następujących kwestiach:

  • Cennik usługi Data Lake Storage zależy od ilości przechowywanych danych i częstotliwości używania danych. Przykładowe ceny obejmują 1 TB danych przechowywanych i innych założeń transakcyjnych. Rozmiar 1 TB odnosi się do rozmiaru magazynu data lake, a nie oryginalnego starszego rozmiaru bazy danych.
  • Cennik sieci szkieletowej jest oparty na cenie pojemności jednostki SKU usługi Fabric F lub cenie Premium za użytkownika. Pojemności bezserwerowe zużywają procesor i pamięć z zakupionej pojemności dedykowanej.
  • Opłaty za usługę Event Hubs są naliczane na podstawie warstwy, aprowizowanych jednostek przepływności i odbieranego ruchu przychodzącego. W tym przykładzie przyjęto założenie, że jedna jednostka przepływności w warstwie Standardowa ponad milion zdarzeń na miesiąc.

Sprawność operacyjna

Doskonałość operacyjna obejmuje procesy operacyjne, które wdrażają aplikację i działają w środowisku produkcyjnym. Aby uzyskać więcej informacji, zobacz Lista kontrolna projektu dotycząca doskonałości operacyjnej.

Sieć szkieletowa udostępnia wiele składników, które ułatwiają zarządzanie platformą danych. Każdy z tych składników obsługuje unikatowe operacje, które można wyświetlić w aplikacji Metryki pojemności usługi Microsoft Fabric. Użyj aplikacji Metryki pojemności sieci szkieletowej, aby monitorować zużycie pojemności i podejmować świadome decyzje dotyczące korzystania z zasobów pojemności.

Efektywność wydajności

Wydajność to zdolność obciążenia do zaspokojenia wymagań, które są na nim nakładane przez użytkowników w wydajny sposób. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu pod kątem wydajności.

Sieć szkieletowa udostępnia kilka funkcji umożliwiających optymalizowanie wydajności składników. Te narzędzia i praktyki mogą pomóc w efektywnym zarządzaniu zasobami obliczeniowymi, zapobieganiu przeciążeniu i podejmowaniu świadomych decyzji dotyczących skalowania i optymalizowania obciążeń.

Niektóre kluczowe możliwości wydajności w sieci szkieletowej obejmują:

  • Skalowanie i wygładanie w celu zapewnienia, że działania intensywnie korzystające z procesora CPU są wykonywane szybko bez konieczności posiadania wyższej jednostki SKU. Zaplanuj te działania w dowolnym momencie dnia.

  • Ograniczanie przepustowości, aby opóźniać lub odrzucać operacje, gdy wydajność utrzymuje zapotrzebowanie na procesor CPU powyżej limitu jednostki SKU.

  • Aplikacja Metryki pojemności sieci szkieletowej, aby wizualizować użycie pojemności, zoptymalizować wydajność artefaktów i zoptymalizować elementy o wysokiej wydajności obliczeniowej. Aplikacja rozróżnia operacje interakcyjne (takie jak zapytania języka DAX) i operacje w tle (takie jak odświeżanie modelu semantycznego) na potrzeby optymalizacji docelowej.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki