Usługa Azure Synapse Analytics dla stref docelowych

Azure Synapse Analytics
Azure Private Link
Azure Data Lake Storage
Azure Key Vault

Ten artykuł zawiera podejście architektoniczne do przygotowywania subskrypcji strefy docelowej platformy Azure na potrzeby skalowalnego, rozszerzonego wdrożenia usługi Azure Synapse Analytics. Usługa Azure Synapse, usługa analizy przedsiębiorstwa, łączy magazynowanie danych, przetwarzanie danych big data, integrację danych i zarządzanie nimi.

W tym artykule założono, że wdrożono już podstawy platformy, które są wymagane do efektywnego konstruowania i operacjonalizacji strefy docelowej.

Apache®, Spark i logo płomienia są zastrzeżonymi znakami towarowymi lub znakami towarowymi fundacji Apache Software Foundation w Stany Zjednoczone i/lub innych krajach. Użycie tych znaków nie jest dorozumiane przez fundację Apache Software Foundation.

Architektura

Diagram przedstawiający architekturę referencyjną usługi Azure Synapse Analytics.

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

  • Podstawowym składnikiem tej architektury jest usługa Azure Synapse, ujednolicona usługa, która zapewnia szereg funkcji, od pozyskiwania danych i przetwarzania danych po obsługę i analizę. Usługa Azure Synapse w zarządzanej sieci wirtualnej zapewnia izolację sieci dla obszaru roboczego. Włączając ochronę przed eksfiltracją danych, można ograniczyć łączność wychodzącą tylko do zatwierdzonych obiektów docelowych.
  • Zasoby usługi Azure Synapse, środowisko Azure Integration Runtime i pule platformy Spark, które znajdują się w zarządzanej sieci wirtualnej, mogą łączyć się z usługą Azure Data Lake Storage, usługą Azure Key Vault i innymi magazynami danych platformy Azure z podwyższonymi zabezpieczeniami przy użyciu zarządzanych prywatnych punktów końcowych. Pule SQL usługi Azure Synapse hostowane poza zarządzaną siecią wirtualną mogą łączyć się z usługami platformy Azure za pośrednictwem prywatnego punktu końcowego w sieci wirtualnej przedsiębiorstwa.
  • Administratorzy mogą wymuszać prywatną łączność z obszarem roboczym usługi Azure Synapse, usługą Data Lake Storage, usługą Key Vault, usługą Log Analytics i innymi magazynami danych za pośrednictwem zasad platformy Azure stosowanych w strefach docelowych danych na poziomie grupy zarządzania. Mogą również umożliwić ochronę przed eksfiltracją danych w celu zapewnienia zwiększonych zabezpieczeń ruchu wychodzącego.
  • Użytkownicy uzyskują dostęp do programu Synapse Studio przy użyciu przeglądarki internetowej z ograniczonej sieci lokalnej za pośrednictwem usługi Azure Synapse Private Link Hubs. Usługa Private Link Hubs służy do ładowania programu Synapse Studio za pośrednictwem łączy prywatnych z rozszerzonymi zabezpieczeniami. Pojedynczy zasób usługi Azure Synapse Private Link Hubs jest wdrażany w subskrypcji łączności z prywatnym punktem końcowym w sieci wirtualnej koncentratora. Sieć wirtualna koncentratora jest połączona z siecią lokalną za pośrednictwem usługi Azure ExpressRoute. Zasób usługi Private Link Hubs może służyć do prywatnego łączenia się ze wszystkimi obszarami roboczymi usługi Azure Synapse za pośrednictwem programu Synapse Studio.
  • Inżynierowie danych używają potoków usługi Azure Synapse działanie Kopiuj wykonywanych w własnym środowisku Integration Runtime, aby pozyskiwać dane między magazynem danych hostowanym w środowisku lokalnym i magazynach danych w chmurze, takich jak Data Lake Storage i pule SQL. Środowisko lokalne jest połączone za pośrednictwem usługi ExpressRoute z siecią wirtualną piasty na platformie Azure.
  • Inżynierowie danych używają działań usługi Azure Synapse Przepływ danych i pul platformy Spark do przekształcania danych hostowanych w magazynach danych w chmurze połączonych z zarządzaną siecią wirtualną usługi Azure Synapse za pośrednictwem zarządzanych prywatnych punktów końcowych. W przypadku danych znajdujących się w środowisku lokalnym przekształcenie za pomocą pul platformy Spark wymaga łączności za pośrednictwem niestandardowej usługi Private Link. Niestandardowa usługa Private Link używa maszyn wirtualnych translatora adresów sieciowych (NAT) do łączenia się z lokalnym magazynem danych. Aby uzyskać informacje na temat konfigurowania usługi Private Link w celu uzyskiwania dostępu do lokalnych magazynów danych z zarządzanej sieci wirtualnej, zobacz Jak uzyskać dostęp do lokalnego programu SQL Server z zarządzanej sieci wirtualnej usługi Data Factory przy użyciu prywatnego punktu końcowego.
  • Jeśli ochrona eksfiltracji danych jest włączona w usłudze Azure Synapse, rejestrowanie aplikacji Spark w obszarze roboczym usługi Log Analytics jest kierowane za pośrednictwem zasobu zakresu usługi Private Link usługi Azure Monitor połączonego z zarządzaną siecią wirtualną usługi Azure Synapse za pośrednictwem zarządzanego prywatnego punktu końcowego. Jak pokazano na diagramie, pojedynczy zasób zakresu usługi Azure Monitor Private Link jest hostowany w subskrypcji łączności z prywatnym punktem końcowym w sieci wirtualnej koncentratora. Wszystkie obszary robocze usługi Log Analytics i zasoby usługi Application Insights można uzyskać prywatnie za pośrednictwem zakresu usługi Azure Monitor Private Link.

Składniki

  • Azure Synapse Analytics to usługa do analizy przedsiębiorstwa, która skraca czas wglądu w magazyny danych i systemy danych big data.
  • Zarządzana sieć wirtualna usługi Azure Synapse zapewnia izolację sieci do obszarów roboczych usługi Azure Synapse z innych obszarów roboczych.
  • Prywatne punkty końcowe zarządzane w usłudze Azure Synapse to prywatne punkty końcowe utworzone w zarządzanej sieci wirtualnej skojarzonej z obszarem roboczym usługi Azure Synapse. Zarządzane prywatne punkty końcowe ustanawiają łączność łącza prywatnego z zasobami platformy Azure poza zarządzaną siecią wirtualną.
  • Obszar roboczy usługi Azure Synapse z ochroną przed eksfiltracją danych uniemożliwia eksfiltrację poufnych danych do lokalizacji spoza zakresu organizacji.
  • Usługa Azure Private Link Hubs to zasoby platformy Azure, które działają jako łączniki między zabezpieczoną siecią a środowiskiem internetowym usługi Synapse Studio.
  • Środowisko Integration Runtime to infrastruktura obliczeniowa używana przez potoki usługi Azure Synapse w celu zapewnienia możliwości integracji danych w różnych środowiskach sieciowych. Uruchom działanie Przepływ danych w zarządzanym środowisku Azure Compute Integration Runtime lub działanie Kopiuj w sieciach przy użyciu własnego środowiska Integration Runtime obliczeniowego.
  • Usługa Azure Private Link zapewnia prywatny dostęp do usług hostowanych na platformie Azure. Usługa Azure Private Link to odwołanie do własnej usługi obsługiwanej przez usługę Private Link. Możesz włączyć usługę działającą za standardowym modułem równoważenia obciążenia platformy Azure na potrzeby dostępu do usługi Private Link. Następnie można rozszerzyć usługę Private Link do zarządzanej sieci wirtualnej usługi Azure Synapse za pośrednictwem zarządzanego prywatnego punktu końcowego.
  • Platforma Apache Spark w usłudze Azure Synapse jest jedną z kilku implementacji platformy Apache Spark w chmurze. Usługa Azure Synapse ułatwia tworzenie i konfigurowanie możliwości platformy Spark na platformie Azure.
  • Usługa Data Lake Storage używa usługi Azure Storage jako podstawy do tworzenia magazynów danych przedsiębiorstwa na platformie Azure.
  • Usługa Key Vault umożliwia przechowywanie wpisów tajnych, kluczy i certyfikatów z rozszerzonymi zabezpieczeniami.
  • Strefy docelowe platformy Azure to dane wyjściowe środowiska platformy Azure z wieloma subskrypcjami, które uwzględniają skalowanie, nadzór nad zabezpieczeniami, sieć i tożsamość. Strefa docelowa umożliwia migrację, modernizację i innowacje w skali przedsiębiorstwa na platformie Azure.

Szczegóły scenariusza

Ten artykuł zawiera podejście do przygotowywania subskrypcji strefy docelowej platformy Azure na potrzeby skalowalnego, rozszerzonego wdrożenia zabezpieczeń usługi Azure Synapse. Rozwiązanie jest zgodne z przewodnika Cloud Adoption Framework dla najlepszych rozwiązań platformy Azure i koncentruje się na wytycznych dotyczących projektowania stref docelowych w skali przedsiębiorstwa.

Wiele dużych organizacji ze zdecentralizowanymi, autonomicznymi jednostkami biznesowymi chce wdrażać rozwiązania analityczne i nauki o danych na dużą skalę. Ważne jest, aby budowali właściwą podstawę. Usługi Azure Synapse i Data Lake Storage to główne składniki do implementowania analizy w skali chmury i architektury siatki danych.

Ten artykuł zawiera zalecenia dotyczące wdrażania usługi Azure Synapse między grupami zarządzania, topologią subskrypcji, siecią, tożsamością i zabezpieczeniami.

Korzystając z tego rozwiązania, można wykonać następujące czynności:

  • Dobrze zarządzana, rozszerzona platforma analizy zabezpieczeń, która jest skalowana zgodnie z potrzebami w wielu strefach docelowych danych.
  • Zmniejszone obciążenie operacyjne zespołów aplikacji danych. Mogą skupić się na inżynierii danych i analizie oraz pozostawić zarządzanie platformą Azure Synapse zespołowi operacyjnemu strefy docelowej danych.
  • Scentralizowane wymuszanie zgodności organizacji między strefami docelowymi danych.

Potencjalne przypadki użycia

Ta architektura jest przydatna w przypadku organizacji, które wymagają:

  • W pełni zintegrowana i operacyjna płaszczyzna kontroli i danych dla obciążeń usługi Azure Synapse od samego początku.
  • Ulepszona implementacja zabezpieczeń usługi Azure Synapse z naciskiem na bezpieczeństwo i prywatność danych.

Ta architektura może służyć jako punkt wyjścia dla wdrożeń obciążeń usługi Azure Synapse na dużą skalę w ramach subskrypcji strefy docelowej danych.

Topologia subskrypcji

Organizacje tworzące platformy danych i analizy na dużą skalę szukają sposobów spójnego i wydajnego skalowania wysiłków w czasie.

  • Korzystając z subskrypcji jako jednostki skalowania dla stref docelowych danych, organizacje mogą przezwyciężyć ograniczenia na poziomie subskrypcji, zapewnić odpowiednią izolację i zarządzanie dostępem oraz uzyskać elastyczny przyszły wzrost śladu platformy danych. W strefie docelowej danych można grupować usługi Azure Synapse i inne zasoby danych w określonych przypadkach użycia analizy w grupie zasobów.
  • Grupa zarządzania i konfiguracja subskrypcji są odpowiedzialne za właściciela platformy strefy docelowej, który zapewnia wymagany dostęp do administratorów platformy danych w celu aprowizowania usługi Azure Synapse i innych usług.
  • Wszystkie zasady zgodności danych dla całej organizacji są stosowane na poziomie grupy zarządzania, aby wymusić zgodność w strefach docelowych danych.

Topologia sieci

Aby uzyskać zalecenia dotyczące stref docelowych korzystających z topologii sieci wirtualnej sieci WAN (piasta i szprycha), zobacz Topologia sieci usługi Virtual WAN. Te zalecenia są zgodne z najlepszymi rozwiązaniami w przewodniku Cloud Adoption Framework .

Poniżej przedstawiono kilka zaleceń dotyczących topologii sieci usługi Azure Synapse:

  • Zaimplementuj izolację sieci dla zasobów usługi Azure Synapse za pośrednictwem zarządzanej sieci wirtualnej. Zaimplementuj ochronę przed eksfiltracją danych, ograniczając dostęp wychodzący tylko do zatwierdzonych obiektów docelowych.

  • Skonfiguruj łączność prywatną z:

    • Usługi platformy Azure, takie jak Data Lake Storage, Key Vault i Azure SQL, za pośrednictwem zarządzanych prywatnych punktów końcowych.
    • Lokalne magazyny danych i aplikacje za pośrednictwem usługi ExpressRoute za pośrednictwem własnego środowiska Integration Runtime. Użyj niestandardowej usługi Private Link, aby połączyć zasoby platformy Spark z lokalnymi magazynami danych, jeśli nie możesz użyć własnego środowiska Integration Runtime.
    • Program Synapse Studio za pośrednictwem centrów usługi Private Link wdrożonych w subskrypcji łączności.
    • Obszar roboczy usługi Log Analytics, za pośrednictwem zakresu usługi Azure Monitor Private Link, wdrożony w subskrypcji łączności.

Zarządzanie tożsamościami i dostępem

Przedsiębiorstwa zazwyczaj korzystają z podejścia o najniższych uprawnieniach w celu uzyskania dostępu operacyjnego. Używają one identyfikatora Entra firmy Microsoft, kontroli dostępu opartej na rolach (RBAC) platformy Azure i niestandardowych definicji ról na potrzeby zarządzania dostępem.

  • Zaimplementuj szczegółowe mechanizmy kontroli dostępu w usłudze Azure Synapse przy użyciu ról platformy Azure, ról usługi Azure Synapse, ról SQL i uprawnień usługi Git. Aby uzyskać więcej informacji na temat kontroli dostępu do obszaru roboczego usługi Azure Synapse, zobacz to omówienie.
  • Role usługi Azure Synapse zapewniają zestawy uprawnień, które można zastosować w różnych zakresach. Taka szczegółowość ułatwia przyznawanie odpowiedniego dostępu do zasobów obliczeniowych i danych administratorom, deweloperom, personelowi ds. zabezpieczeń i operatorom.
  • Kontrolę dostępu można uprościć przy użyciu grup zabezpieczeń, które są dopasowane do ról zadań. Aby zarządzać dostępem, wystarczy dodać i usunąć użytkowników z odpowiednich grup zabezpieczeń.
  • Możesz zapewnić bezpieczeństwo komunikacji między usługą Azure Synapse i innymi usługami platformy Azure, takimi jak Data Lake Storage i Key Vault, przy użyciu tożsamości zarządzanych przypisanych przez użytkownika. Eliminuje to konieczność zarządzania poświadczeniami. Tożsamości zarządzane zapewniają tożsamość, której aplikacje mogą używać podczas nawiązywania połączenia z zasobami obsługującymi uwierzytelnianie firmy Microsoft Entra.

Automatyzacja aplikacji i metodyka DevOps

  • Ciągła integracja i ciągłe dostarczanie obszaru roboczego usługi Azure Synapse jest osiągana za pośrednictwem integracji usługi Git i podwyższania poziomu wszystkich jednostek z jednego środowiska (programowanie, testowanie, produkcja) do innego środowiska.
  • Zaimplementuj automatyzację za pomocą szablonów Bicep/Azure Resource Manager, aby tworzyć lub aktualizować zasoby obszaru roboczego (pule i obszar roboczy). Migrowanie artefaktów, takich jak skrypty i notesy SQL, definicje zadań platformy Spark, potoki, zestawy danych i inne artefakty przy użyciu narzędzi wdrażania obszaru roboczego usługi Synapse w usłudze Azure DevOps lub w usłudze GitHub, zgodnie z opisem w temacie Ciągła integracja i dostarczanie dla obszaru roboczego usługi Azure Synapse Analytics.

Kwestie wymagające rozważenia

Te zagadnienia implementują filary platformy Azure Well-Architected Framework— zestaw wytycznych, których można użyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Niezawodność

Niezawodność gwarantuje, że aplikacja może spełnić zobowiązania wobec klientów. Aby uzyskać więcej informacji, zobacz Omówienie filaru niezawodności.

  • Usługi Azure Synapse, Data Lake Storage i Key Vault to zarządzane usługi typu platforma jako usługa (PaaS), które mają wbudowaną wysoką dostępność i odporność. Za pomocą nadmiarowych węzłów można udostępnić własne środowisko Integration Runtime i maszyny wirtualne translatora adresów sieciowych w architekturze o wysokiej dostępności.
  • Aby uzyskać informacje o umowie dotyczącej poziomu usług (SLA), zobacz Umowa SLA dla usługi Azure Synapse Analytics.
  • Aby uzyskać zalecenia dotyczące ciągłości działania i odzyskiwania po awarii dla usługi Azure Synapse, zobacz Punkty przywracania bazy danych dla usługi Azure Synapse Analytics.

Zabezpieczenia

Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Omówienie filaru zabezpieczeń.

Optymalizacja kosztów

Optymalizacja kosztów polega na zmniejszeniu niepotrzebnych wydatków i poprawie wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

  • Zasoby analityczne są mierzone w jednostkach magazynu danych (DWU), które śledzą procesor CPU, pamięć i operacje we/wy. Zalecamy rozpoczęcie od małych jednostek DWU i pomiar wydajności dla operacji intensywnie korzystających z zasobów, takich jak duże ładowanie lub przekształcanie danych. Może to pomóc w ustaleniu, ile jednostek należy zoptymalizować obciążenie.
  • Oszczędzaj pieniądze przy użyciu cen płatności zgodnie z rzeczywistym użyciem przy użyciu wstępnie zakupionych jednostek zatwierdzeń usługi Azure Synapse (SCU).
  • Aby zapoznać się z opcjami cen i oszacować koszt implementacji usługi Azure Synapse, zobacz Cennik usługi Azure Synapse Analytics.
  • To oszacowanie cen zawiera koszty wdrażania usług przy użyciu kroków automatyzacji opisanych w następnej sekcji.

Wdrażanie tego scenariusza

Wymagania wstępne: musisz mieć konto platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto .

Cały kod dla tego scenariusza jest dostępny w repozytorium Synapse Enterprise Codebase w usłudze GitHub.

Wdrożenie automatyczne używa szablonów Bicep do wdrożenia następujących składników:

  • Grupa zasobów
  • Sieć wirtualna i podsieci
  • Warstwy magazynowania (Brązowe, Srebrne i Złote) z prywatnymi punktami końcowymi
  • Obszar roboczy usługi Azure Synapse z zarządzaną siecią wirtualną
  • Usługa Private Link i punkty końcowe
  • Moduł równoważenia obciążenia i maszyny wirtualne translatora adresów sieciowych
  • Zasób własnego środowiska Integration Runtime

Skrypt programu PowerShell do organizowania wdrożenia jest dostępny w repozytorium. Możesz uruchomić skrypt programu PowerShell lub użyć pliku pipeline.yml , aby wdrożyć go jako potok w usłudze Azure DevOps.

Aby uzyskać więcej informacji na temat szablonów Bicep, kroków wdrażania i założeń, zobacz plik readme .

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

Inny współautor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki

Aby uzyskać więcej informacji na temat usług opisanych w tym artykule, zobacz następujące zasoby: