Nowoczesna platforma danych dla małych i średnich firm korzystających z usług Microsoft Fabric i Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory

Rozwiązania — pomysły

W tym artykule opisano pomysł rozwiązania. Architekt chmury może użyć tych wskazówek, aby ułatwić wizualizowanie głównych składników dla typowej implementacji tej architektury. Skorzystaj z tego artykułu jako punktu wyjścia, aby zaprojektować dobrze zaprojektowane rozwiązanie zgodne z konkretnymi wymaganiami obciążenia.

W tym artykule opisano, jak małe i średnie firmy (SMB) mogą łączyć istniejące inwestycje w usługę Azure Databricks z w pełni zarządzaną platformą danych oprogramowania jako usługi (SaaS), taką jak Microsoft Fabric. Platformy danych SaaS to kompleksowe rozwiązania do analizy danych, które można łatwo zintegrować z narzędziami, takimi jak Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 i inne technologie firmy Microsoft.

Uproszczona architektura

Diagram przedstawiający uproszczoną architekturę dla małych i średnich firm.

Pobierz plik programu Visio tej architektury.

Współdziałanie usług Azure Databricks i Microsoft Fabric zapewnia niezawodne rozwiązanie, które minimalizuje fragmentację danych przy jednoczesnym ulepszaniu możliwości analitycznych.

Usługa Microsoft Fabric udostępnia otwarte i zarządzane magazyny danych o nazwie OneLake jako podstawowy magazyn SaaS. Usługa OneLake używa formatu Delta Parquet, który jest taki sam, jak używany przez usługę Azure Databricks. Aby uzyskać dostęp do danych usługi Azure Databricks z usługi OneLake, możesz użyć skrótów OneLake w usłudze Fabric lub dublować katalog aparatu Unity usługi Azure Databricks w sieci szkieletowej. Ta integracja umożliwia rozszerzanie systemów analitycznych usługi Azure Databricks za pomocą generowania sztucznej inteligencji na podstawie usługi OneLake.

Możesz również użyć trybu direct lake w usłudze Power BI w danych usługi Azure Databricks w usłudze OneLake. Tryb direct lake upraszcza obsługę warstwy i poprawia wydajność raportów. Usługa OneLake obsługuje interfejsy API dla usługi Azure Data Lake Storage i przechowuje wszystkie dane tabelaryczne w formacie Delta Parquet.

W związku z tym notesy usługi Azure Databricks mogą uzyskiwać dostęp do przechowywanych danych przy użyciu punktów końcowych usługi OneLake. Środowisko jest takie samo jak uzyskiwanie dostępu do danych za pośrednictwem magazynu usługi Microsoft Fabric. Ta integracja umożliwia korzystanie z usługi Fabric lub Azure Databricks bez zmieniania danych.

Architektura

Diagram przedstawiający architekturę protokołu SMB.

Pobierz plik programu Visio tej architektury.

Dataflow

  1. Azure Data Factory: Użyj istniejących potoków usługi Azure Data Factory, aby pozyskiwać ustrukturyzowane i nieustrukturyzowane dane z systemów źródłowych i lądować je w istniejącym magazynie data lake.

  2. Microsoft Dynamics 365: Źródła danych usługi Microsoft Dynamics 365 umożliwiają tworzenie scentralizowanych pulpitów nawigacyjnych analizy biznesowej na rozszerzonych zestawach danych przy użyciu usługi Azure Synapse Link lub Microsoft Fabric Link. Połącz połączone, przetworzone dane z powrotem do usług Microsoft Dynamics 365 i Power BI w celu dalszej analizy.

  3. pozyskiwanie danych przesyłanych strumieniowo: dane przesyłane strumieniowo można pozyskiwać za pośrednictwem usługi Azure Event Hubs lub usługi Azure IoT Hubs, w zależności od protokołów używanych do wysyłania tych komunikatów.

  4. ścieżka zimna: Możesz przenieść dane przesyłane strumieniowo do scentralizowanego magazynu danych w celu dalszej analizy, magazynowania i raportowania przy użyciu usługi Azure Databricks. Te dane mogą być następnie ujednolicone z innymi źródłami danych na potrzeby analizy wsadowej.

  5. Gorąca ścieżka: dane przesyłania strumieniowego można analizować w czasie rzeczywistym, a pulpity nawigacyjne w czasie rzeczywistym można tworzyć za pomocą usługi Microsoft Fabric Real-Time Intelligence.

  6. Azure Databricks: Istniejące notesy usługi Azure Databricks mogą następnie służyć do czyszczenia, łączenia i analizowania danych w zwykły sposób. Rozważ użycie architektury medalonu, takiej jak:

    • Brązowy, który przechowuje nieprzetworzone dane.

    • Silver, który zawiera oczyszczone, przefiltrowane dane.

    • Złoto, które przechowuje zagregowane dane przydatne do analizy biznesowej.

  7. złote dane lub magazyn danych: Dla złotych danych lub magazynu danych, kontynuuj korzystanie z usługi Azure Databricks SQL lub tworzenie dublowania wykazu aparatu Unity usługi Azure Databricks w usłudze Microsoft Fabric. Łatwe tworzenie pulpitów nawigacyjnych na podstawie bezserwerowej analizy danych w usłudze Fabric lakehouse bez konieczności konfigurowania przy użyciu semantycznych modeli usługi Power BI, które są automatycznie tworzone dla wszystkich magazynów typu lakehouse usługi Fabric. Magazyn danych sieci szkieletowej może być również używany jako złota warstwa, jeśli wymagania analityczne wymagają szybszego obliczeń.

Narzędzia używane do zapewniania ładu, współpracy, zabezpieczeń, wydajności i monitorowania kosztów obejmują:

  • Odnajdywanie i zarządzanie

    • Usługa Microsoft Purview udostępnia usługi odnajdywania danych, klasyfikację poufnych danych i szczegółowe informacje dotyczące ładu w obrębie infrastruktury danych.

    • Wykaz aparatu Unity zapewnia scentralizowaną kontrolę dostępu, inspekcję, pochodzenie i możliwości odnajdywania danych w obszarach roboczych usługi Azure Databricks.

  • Usługa Azure DevOps zapewnia ciągłą integrację i ciągłe wdrażanie oraz inne zintegrowane funkcje kontroli wersji.

  • Usługa Azure Key Vault zarządza wpisami tajnymi, kluczami i certyfikatami.

  • Usługa Microsoft Entra ID udostępnia logowanie jednokrotne dla użytkowników usługi Azure Databricks. Usługa Azure Databricks obsługuje automatyczną aprowizację użytkowników przy użyciu identyfikatora Entra firmy Microsoft w celu:

    • Utwórz nowych użytkowników.

    • Przypisz każdemu użytkownikowi poziom dostępu.

    • Usuń użytkowników i odmów im dostępu.

  • Usługa Azure Monitor zbiera i analizuje dane telemetryczne zasobów platformy Azure. Ta usługa maksymalizuje wydajność i niezawodność, proaktywnie identyfikując problemy.

  • Usługa Microsoft Cost Management zapewnia usługi ładu finansowego dla obciążeń platformy Azure.

Składniki

  • Data Lake Storage to skalowalna usługa magazynu danych przeznaczona dla danych ustrukturyzowanych i nieustrukturyzowanych. W tej architekturze usługa Data Lake Storage pełni rolę podstawowej infrastruktury usługi Delta Lake. Jest to podstawowa warstwa magazynu dla nieprzetworzonych i przetworzonych danych, która umożliwia wydajne pozyskiwanie danych, przechowywanie i pobieranie obciążeń analitycznych i uczenia maszynowego.

  • azure Data Factory to oparta na chmurze usługa integracji danych, która organizuje i automatyzuje przenoszenie i przekształcanie danych. Usługa Azure Data Factory służy do tworzenia, planowania i organizowania potoków danych, które przenoszą i przekształcają dane w różnych magazynach danych i usługach. Pomaga to zapewnić bezproblemowy przepływ danych i integrację.

  • event hubs to usługa pozyskiwania danych w czasie rzeczywistym, która może przetwarzać miliony zdarzeń na sekundę z dowolnego źródła. W tej architekturze usługa Event Hubs przechwytuje i przesyła strumieniowo duże ilości danych z różnych źródeł, aby umożliwić analizę w czasie rzeczywistym i przetwarzanie sterowane zdarzeniami.

  • usługi Azure IoT Hub to zarządzana usługa, która zwiększa bezpieczeństwo i niezawodną komunikację między urządzeniami IoT a chmurą. Usługa Azure IoT Hub ułatwia pozyskiwanie, przetwarzanie i analizę danych telemetrycznych z urządzeń IoT w celu zapewnienia szczegółowych informacji w czasie rzeczywistym i umożliwienia zdalnego monitorowania.

  • microsoft Dataverse to skalowalna platforma danych, której organizacje mogą używać do bezpiecznego przechowywania danych używanych przez aplikacje biznesowe i zarządzania nimi. W tej architekturze jest on przywołyny jako potencjalne źródło danych.

    • usługa Azure Synapse Link łączy aplikacje usługi Dynamics z usługą Azure Synapse Analytics lub Data Lake Storage. W tej architekturze jest używana do kopiowania danych niemal w czasie rzeczywistym z usługi Dataverse do usługi Data Lake Storage.

    • microsoft fabric Link łączy aplikacje dynamics z usługą Microsoft Fabric. W tej architekturze jest używana do replikowania danych z usługi Dataverse do usługi Microsoft Fabric niemal w czasie rzeczywistym.

  • azure Databricks to platforma analityczna oparta na platformie Apache Spark. Usługa Azure Databricks służy do przetwarzania danych big data, uczenia maszynowego i inżynierii danych. Ta platforma udostępnia obszar roboczy współpracy dla analityków danych i inżynierów.

    • usługi Delta Lake to warstwa magazynu typu open source, która udostępnia transakcje ACID na obciążenia platformy Apache Spark i danych big data. Usługa Delta Lake służy do zapewniania tej funkcji magazynowi data lake.

    • azure Databricks SQL to oparta na języku SQL usługa analityczna, która umożliwia użytkownikom uruchamianie zapytań SQL dotyczących danych przechowywanych w usłudze Azure Databricks. W tej architekturze usługa Azure Databricks SQL udostępnia zaawansowany interfejs SQL do wykonywania zapytań i analizowania danych, co umożliwia interaktywne i ad hoc analizy.

    • sztucznej inteligencji i uczenia maszynowego obejmują szereg technologii i usług, które umożliwiają tworzenie, wdrażanie i zarządzanie modelami uczenia maszynowego. Usługi sztucznej inteligencji i uczenia maszynowego służą do tworzenia, trenowania i wdrażania modeli predykcyjnych. Ta funkcja umożliwia podejmowanie decyzji opartych na danych.

    • usługi Unity Catalog to rozwiązanie do zapewniania ładu danych, które zapewnia scentralizowaną kontrolę dostępu, inspekcję, pochodzenie i odnajdywanie danych w obszarach roboczych usługi Databricks. Wykaz aparatu Unity pomaga zapewnić nadzór nad danymi i zabezpieczenia, zapewniając szczegółowe mechanizmy kontroli dostępu, inspekcję i śledzenie pochodzenia danych.

  • Architektura lakehouse Medallion to wzorzec architektury danych, który organizuje dane w warstwy brązowe, srebrne i złote w celu wydajnego przetwarzania i analizy danych. Ten wzorzec architektury jest tu implementowany przy użyciu usług Data Lake Storage, Delta Lake i Azure Databricks, co umożliwia skalowalne i wydajne przetwarzanie danych oraz analizę.

  • microsoft fabric to kompleksowa platforma danych, która integruje różne usługi danych i narzędzia, aby zapewnić bezproblemowe środowisko zarządzania danymi i analizy. Usługa Microsoft Fabric łączy i integruje dane z wielu źródeł, co umożliwia kompleksową analizę danych i szczegółowe informacje w całej organizacji.

    • Real-Time Intelligence to funkcja przetwarzania danych, która umożliwia organizacjom pozyskiwanie, przetwarzanie i analizowanie danych w czasie rzeczywistym. Real-Time Analiza przetwarza dane przesyłane strumieniowo z różnych źródeł. Zapewnia wgląd w szczegółowe informacje w czasie rzeczywistym i umożliwia automatyczne akcje oparte na wzorcach danych.

    • skróty OneLake utworzyć link w miejscu między usługą OneLake a innym źródłem danych. Skróty OneLake służą do usprawnienia dostępu do danych i zarządzania nimi, co zapewnia ujednolicony widok danych w całej organizacji.

  • usługi Power BI to usługa analizy biznesowej, która zapewnia interaktywne wizualizacje i możliwości analizy biznesowej. Ma on prosty interfejs umożliwiający użytkownikom tworzenie własnych interaktywnych raportów i pulpitów nawigacyjnych. Te narzędzia umożliwiają wizualizację danych i szczegółowe informacje dla użytkowników biznesowych.

  • microsoft Purview to ujednolicona usługa ładu danych, która ułatwia organizacjom zarządzanie danymi i zarządzanie nimi w różnych źródłach. Usługa Microsoft Purview udostępnia funkcje katalogowania danych, śledzenia pochodzenia i zapewniania ładu danych. Te funkcje pomagają zapewnić zgodność danych i zabezpieczenia w całej organizacji.

  • microsoft Entra ID to oparte na chmurze rozwiązanie do zarządzania tożsamościami i dostępem, które pomaga zapewnić bezpieczne logowanie i dostęp do zasobów, takich jak Microsoft 365, Azure i inne aplikacje SaaS. W tej architekturze identyfikator Entra firmy Microsoft zapewnia bezpieczne zarządzanie tożsamościami i dostępem dla zasobów platformy Azure. Ta funkcja umożliwia bezpieczne logowanie, zarządza tożsamościami użytkowników i pomaga zagwarantować, że dostęp do danych i zasobów jest autoryzowany.

  • microsoft Cost Management to pakiet narzędzi FinOps, których organizacje mogą używać do analizowania, monitorowania i optymalizowania kosztów chmury firmy Microsoft. Te narzędzia zapewniają nadzór finansowy nad zasobami platformy Azure w tej architekturze.

  • key vault to usługa w chmurze, która przechowuje wpisy tajne i zarządza nimi, takimi jak klucze interfejsu API, hasła, certyfikaty i klucze kryptograficzne. Ta usługa umożliwia użytkownikom i aplikacjom bezpieczne uzyskiwanie dostępu do tych wpisów tajnych. Podczas przechowywania kluczy i wpisów tajnych w usłudze Key Vault można zarządzać nimi w jednym miejscu. W tej architekturze usługa Azure Databricks może pobierać wpisy tajne z usługi Key Vault w celu uwierzytelniania i uzyskiwania dostępu do usługi Data Lake Storage. Ten proces pomaga zapewnić bezpieczną i bezproblemową integrację między tymi usługami.

  • usługi Azure Monitor to kompleksowa usługa monitorowania, która zapewnia wgląd w pełne stosy dla aplikacji, infrastruktury i sieci. Usługa Azure Monitor umożliwia użytkownikom zbieranie, analizowanie i wykonywanie działań dotyczących danych telemetrycznych ze środowisk platformy Azure i lokalnych w celu proaktywnego identyfikowania problemów i maksymalizacji wydajności i niezawodności.

  • azure DevOps to zestaw narzędzi programistycznych, które obsługują kulturę współpracy i usprawnione procesy. Te narzędzia umożliwiają deweloperom, menedżerom projektów i współautorom wydajniejsze tworzenie oprogramowania. Usługa Azure DevOps udostępnia zintegrowane funkcje, takie jak Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans i Azure Artifacts. Dostęp do tych funkcji można uzyskać za pośrednictwem przeglądarki internetowej lub zintegrowanego klienta środowiska deweloperskiego.

  • github to oparta na chmurze usługa hostingu repozytorium Git, która upraszcza kontrolę wersji i współpracę deweloperów. Umożliwia on osobom i zespołom przechowywanie kodu oraz zarządzanie nim, śledzenie zmian i współpracę nad projektami przy użyciu usługi Git. Przyjazny dla użytkownika interfejs usługi GitHub sprawia, że usługa Git jest dostępna dla koderów wszystkich poziomów umiejętności. Usługi Azure DevOps i GitHub można używać razem do implementowania rozwiązań DevOps. Te rozwiązania wymuszają automatyzację i zgodność w potokach tworzenia i wdrażania obciążeń dla usług Azure Data Factory, Azure Databricks i Microsoft Fabric.

Alternatywy

Alternatywy usługi w ramach tej architektury

  • pozyskiwania w usłudze Batch

  • pozyskiwania usługi Microsoft Dynamics 365

  • pozyskiwanie danych przesyłanych strumieniowo

    • Decyzja między usługami Azure IoT i Event Hubs zależy od źródła danych przesyłanych strumieniowo, czy wymagana jest klonowanie i dwukierunkowa komunikacja z urządzeniami raportowania oraz wymagane protokoły. Aby uzyskać więcej informacji, zobacz Compare IoT Hub and Event Hubs.
  • Lakehouse

    • Microsoft Fabric Lakehouse to ujednolicona platforma architektury danych do zarządzania danymi ustrukturyzowanymi i nieustrukturyzowanymi w otwartym formacie, który używa głównie plików Delta Parquet. Obsługuje dwa typy magazynów. Te typy magazynów to tabele zarządzane, takie jak CSV, Parquet lub Delta oraz pliki niezarządzane. Tabele zarządzane są automatycznie rozpoznawane. Niezarządzane pliki wymagają jawnego utworzenia tabeli. Platforma umożliwia przekształcanie danych za pośrednictwem punktów końcowych Platformy Spark lub SQL i bezproblemowo integruje się z innymi składnikami usługi Microsoft Fabric. Bezproblemowa integracja umożliwia udostępnianie danych bez duplikowania. Ta koncepcja jest zgodna z typową architekturą medalionu używaną w obciążeniach analitycznych. Aby uzyskać więcej informacji, zobacz Lakehouse w usłudze Microsoft Fabric.
  • analizy w czasie rzeczywistym

    • azure Databricks

      • Jeśli masz istniejące rozwiązanie usługi Azure Databricks, możesz nadal używać przesyłania strumieniowego ze strukturą na potrzeby analizy w czasie rzeczywistym. Aby uzyskać więcej informacji, zobacz Streaming on Databricks.
    • microsoft fabric

      • Jeśli w przeszłości używasz innych usług platformy Azure do analizy w czasie rzeczywistym lub nie masz istniejącego rozwiązania do analizy w czasie rzeczywistym, zobacz Fabric Real-Time Intelligence vs Azure Streaming Solutions.

      • Przesyłanie strumieniowe ze strukturą usługi Microsoft Fabric używa przesyłania strumieniowego ze strukturą platformy Spark do przetwarzania i pozyskiwania strumieni danych na żywo jako stale dołączanych tabel. Przesyłanie strumieniowe ze strukturą obsługuje różne źródła plików, takie jak CSV, JSON, ORC, Parquet i usługi obsługi komunikatów, takie jak Kafka i Event Hubs. Takie podejście zapewnia skalowalne i odporne na uszkodzenia przetwarzanie strumieni, co optymalizuje środowiska produkcyjne o wysokiej przepływności. Aby uzyskać więcej informacji, zobacz Microsoft Fabric Spark Structured Streaming.

  • inżynierii danych

  • Data Warehouse lub gold layer

    • Możesz użyć usługi Microsoft Fabric lub Azure Databricks do utworzenia magazynu opartego na języku SQL lub warstwy złota. Aby uzyskać przewodnik po decyzjach dotyczących wybierania magazynu danych lub rozwiązania magazynu warstwy złotej w usłudze Microsoft Fabric, zobacz przewodnik po decyzjach Microsoft Fabric: wybieranie magazynu danych. Aby uzyskać więcej informacji na temat typów magazynu SQL w usłudze Azure Databricks, zobacz typy usługi SQL Warehouse.
  • data science

    • Korzystanie z usługi Microsoft Fabric lub Azure Databricks na potrzeby możliwości nauki o danych. Aby uzyskać więcej informacji na temat oferty nauki o danych w usłudze Microsoft Fabric, zobacz Co to jest nauka o danych w usłudze Microsoft Fabric?. Aby uzyskać więcej informacji na temat oferty usługi Azure Databricks, zobacz sztucznej inteligencji i uczenia maszynowego w usłudze Databricks.

    • Nauka o danych w usłudze Microsoft Fabric różni się od uczenia maszynowego. Usługa Machine Learning udostępnia kompleksowe rozwiązanie do zarządzania przepływami pracy i wdrażania modeli uczenia maszynowego. Nauka o danych w usłudze Microsoft Fabric jest dostosowana do scenariusza analizy i raportowania.

  • usługi Power BI

    • Usługa Azure Databricks zintegrowana z usługą Power BI umożliwia bezproblemowe przetwarzanie danych i wizualizację. Aby uzyskać więcej informacji, zobacz Connect Power BI to Azure Databricks.

    • Dublując katalog aparatu Unity usługi Azure Databricks w sieci szkieletowej, możesz uzyskać dostęp do danych zarządzanych przez wykaz aparatu Unity usługi Azure Databricks bezpośrednio z obciążenia sieci szkieletowej. Aby uzyskać więcej informacji, zobacz Dublowanie usługi Azure Databricks Unity Catalog.

    • Utwórz skrót z usługi Data Lake Storage za pomocą usługi Delta Lake do usługi Microsoft Fabric One Lake. Aby uzyskać więcej informacji, zobacz Integrowanie wykazu aparatu Unity usługi Databricks z usługą OneLake. Możesz wykonywać zapytania dotyczące tych danych z usługi Power BI przy użyciu trybu Direct Lake bez kopiowania danych do usługi Power BI. Aby uzyskać więcej informacji, zobacz Tryb direct lake.

Szczegóły scenariusza

Małe i średnie firmy, które mają istniejące środowisko usługi Azure Databricks i opcjonalnie, architekturę lakehouse, mogą korzystać z tego wzorca. Obecnie używają narzędzia do wyodrębniania, przekształcania i ładowania platformy Azure, takiego jak usługa Azure Data Factory i obsługują raporty w usłudze Power BI. Mogą jednak również mieć wiele źródeł danych, które używają różnych zastrzeżonych formatów danych w tym samym magazynie typu data lake, co prowadzi do duplikowania danych i obaw dotyczących blokady dostawcy. Taka sytuacja może komplikować zarządzanie danymi i zwiększać zależność od określonych dostawców. Mogą one również wymagać up-to— data i niemal w czasie rzeczywistym raportowanie na potrzeby podejmowania decyzji i zainteresowanie wdrażaniem narzędzi sztucznej inteligencji w całym środowisku.

Microsoft Fabric to otwarta, ujednolicona i zarządzana fundacja SaaS, której można użyć do:

  • Usługa OneLake służy do przechowywania i analizowania danych oraz zarządzania nimi w jednej lokalizacji bez obaw dotyczących blokady dostawcy.

  • Szybsze wprowadzanie innowacji dzięki integracji z aplikacjami platformy Microsoft 365.

  • Uzyskaj szybki wgląd w szczegółowe informacje dzięki korzyściom z trybu direct lake usługi Power BI.

  • Korzystaj z rozwiązania Copilots w każdym środowisku usługi Microsoft Fabric.

  • Przyspiesz analizę, opracowując modele sztucznej inteligencji na jednej podstawie.

  • Zachowaj dane na miejscu bez przenoszenia, co skraca czas potrzebny analitykom danych na zapewnienie wartości.

Współpracowników

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki