Strefy docelowe danych
Strefy docelowe danych są połączone z strefą docelową zarządzania danymi przez komunikację równorzędną sieci wirtualnych lub prywatne punkty końcowe. Każda strefa docelowa danych jest uważana za strefę docelową związaną z architekturą strefy docelowej platformy Azure.
Ważny
Przed wdrożeniem strefy lądowania danych upewnij się, że masz wdrożony model operacyjny DevOps oraz CI/CD, a także że została wdrożona strefa lądowania zarządzania danymi.
Każda strefa docelowa danych ma kilka warstw, które umożliwiają elastyczność integracji danych usługi i aplikacji danych, które zawiera. Możesz wdrożyć nową strefę docelową danych ze standardowym zestawem usług, które umożliwiają strefie docelowej danych rozpoczęcie pozyskiwania i analizowania danych.
Typowa subskrypcja platformy Azure skojarzona ze strefą docelową danych ma następującą strukturę:
Warstwa | Wymagane | Grupy zasobów |
---|---|---|
warstwa usług platformy | Tak | |
Podstawowe usługi | Tak | |
aplikacja danych | Fakultatywny | |
Raportowanie i wizualizacja | Fakultatywny |
Notatka
Chociaż warstwa usług podstawowych jest oznaczona jako wymagana, nie wszystkie grupy zasobów i usługi zawarte w tym artykule mogą być konieczne dla strefy docelowej danych.
Architektura strefy docelowej danych
Architektura strefy docelowej danych ilustruje warstwy, ich grupy zasobów i usługi, które zawiera każda grupa zasobów. Architektura zawiera omówienie wszystkich grup i ról skojarzonych ze strefą docelową danych oraz zakresem ich dostępu do płaszczyzn kontroli i danych. Architektura ilustruje również sposób, w jaki każda warstwa jest zgodna z obowiązkami modelu operacyjnego.
Napiwek
Przed wdrożeniem strefy docelowej danych upewnij się, że rozważyć liczbę początkowych stref docelowych danych, które chcesz wdrożyć.
Usługi platformy
Warstwa usług platformy obejmuje usługi wymagane do włączenia łączności i wglądu w strefę docelową danych w kontekście analizy w skali chmury. W poniższej tabeli wymieniono zalecane grupy zasobów.
Grupa zasobów | Wymagane | Opis |
---|---|---|
network-rg |
Tak | Sieci |
security-rg |
Tak | Zabezpieczenia i monitorowanie |
Sieci
Grupa zasobów sieciowych zawiera usługi łączności, w tym sieci wirtualnych platformy Azure, sieciowe grupy zabezpieczeń i tabele tras . Wszystkie te usługi są wdrażane w jednej grupie zasobów.
Sieć wirtualna strefy docelowej danych jest automatycznie równorzędna z siecią wirtualną strefy docelowej zarządzania danymi i siecią wirtualną subskrypcji łączności .
Zabezpieczenia i monitorowanie
Grupa zasobów zabezpieczeń i monitorowania obejmuje Azure Monitor i Microsoft Defender for Cloud do zbierania telemetrii usługi, definiowania kryteriów monitorowania i alertów oraz stosowania zasad i skanowania usług.
Podstawowe usługi
Warstwa usług kluczowych obejmuje niezbędne usługi wymagane do umożliwienia strefy przyjmowania danych w kontekście analizy na dużą skalę w chmurze. W poniższej tabeli wymieniono grupy zasobów, które zapewniają standardowy zestaw dostępnych usług w każdej wdrożonej strefie docelowej danych.
Grupa zasobów | Wymagane | Opis |
---|---|---|
storage-rg |
Tak | Usługi Data Lake |
runtimes-rg |
Tak | Udostępnione środowiska uruchomieniowe Integration Runtime |
mgmt-rg |
Tak | Zasoby CI/CD |
external-data-rg |
Tak | Zewnętrzny magazyn danych |
data-ingestion-rg |
Fakultatywny | Współdzielone usługi pozyskiwania danych |
shared-applications-rg |
Fakultatywny | Aplikacje udostępnione (Synapse lub Databricks) |
Magazynowanie
Jak pokazano na diagramie, trzy konta usługi Azure Data Lake Storage Gen2 są tworzone w jednej grupie zasobów usług data lake. Dane przekształcone na różnych etapach są zapisywane w jednym z magazynów danych strefy docelowej danych. Dane są dostępne do użycia przez zespoły analityczne, nauki o danych i wizualizacji.
Warstwy usługi Data Lake używają innej terminologii w zależności od technologii i dostawcy. Ta tabela zawiera wskazówki dotyczące sposobu stosowania terminów do analizy w skali chmury:
Analiza w skali chmury | Delta Lake | Inne terminy | Opis |
---|---|---|---|
Surowy | Brąz | Lądowanie i zgodność | Tabele pozyskiwania |
Wzbogacony | Srebro | Strefa standaryzacji | Udoskonalone tabele. Przechowywane pełne zestawy rekordów gotowe do użycia z systemów rekordów. |
Wyselekcjonowane | Złoto | Strefa produktu | Tabele funkcjonalności lub tabele agregowane. Strefa podstawowa dla aplikacji, zespołów i użytkowników do korzystania z produktów danych. |
Rozwój | -- | Strefa rozwoju | Lokalizacja dla inżynierów i analityków danych obejmująca zarówno piaskownicę analizy, jak i strefę tworzenia produktu. |
Notatka
Na poprzednim diagramie każda strefa docelowa danych ma trzy konta magazynu data lake. Jednak w zależności od wymagań możesz skonsolidować nieprzetworzone, wzbogacone i wyselekcjonowane warstwy na jedno konto i zachować inne konto o nazwie "workspacja" dla użytkowników danych, aby wprowadzać inne przydatne produkty danych.
Aby uzyskać więcej informacji, zobacz:
- Omówienie usługi Azure Data Lake Storage na potrzeby analizy w skali chmury
- standaryzacja danych
- Aprowizuj konta usługi Azure Data Lake Storage Gen2 dla każdej strefy docelowej danych
- Najważniejsze zagadnienia dotyczące usługi Azure Data Lake Storage
- Kontrola dostępu i konfiguracje usługi Data Lake Storage w usłudze Azure Data Lake Storage
Udostępnione środowiska uruchomieniowe integracji
Potoki usług Azure Data Factory i Azure Synapse Analytics używają środowisk Integration Runtime (IR) do bezpiecznego uzyskiwania dostępu do źródeł danych w sieciach równorzędnych lub izolowanych. Udostępnione środowiska Integration Runtime powinny być wdrażane na maszynie wirtualnej (lub w zestawach skalowania maszyn wirtualnych platformy Azure) w grupie zasobów udostępnionego środowiska Integration Runtime.
Aby włączyć udostępnioną grupę zasobów:
- Utwórz co najmniej jedną usługę Azure Data Factory w udostępnionej grupie zasobów integracji strefy docelowej danych. Używaj go tylko do łączenia współużytkowanego własnego środowiska Integration Runtime, a nie potoków danych.
- Tworzenie i konfigurowanie własnego środowiska Integration Runtime na maszynie wirtualnej.
- Skojarz własne środowisko Integration Runtime z fabrykami danych platformy Azure w strefach docelowych danych.
- Użyj skryptów programu PowerShell, aby okresowo aktualizować własne środowisko Integration Runtime.
Nota
Wdrożenie opisuje pojedynczą maszynę wirtualną z własnym, lokalnym środowiskiem Integration Runtime. Możesz skojarzyć własne środowisko Integration Runtime z wieloma maszynami wirtualnymi lokalnie lub na platformie Azure. Te maszyny są nazywane węzłami i można mieć do czterech węzłów skojarzonych z własnym środowiskiem Integration Runtime. Korzyści wynikające z posiadania wielu węzłów to:
- Wyższa dostępność lokalnego środowiska Integration Runtime, dzięki czemu nie jest już ono jedynym punktem awarii w twojej aplikacji danych lub w orkiestracji integracji danych w chmurze.
- Zwiększona wydajność i przepływność podczas przenoszenia danych między usługami danych lokalnych i w chmurze. Uzyskaj więcej informacji na temat porównań wydajności .
Można skojarzyć wiele węzłów, instalując samodzielnie hostowane oprogramowanie Integration Runtime z Centrum pobierania. Następnie zarejestruj go przy użyciu jednego z uzyskanych kluczy uwierzytelniania z polecenia cmdlet New-AzDataFactoryV2IntegrationRuntimeKey, zgodnie z opisem w samouczku .
Więcej informacji znajduje się w usłudze Azure Data Factory o wysokiej dostępności i skalowalności.
Ważny
Wdróż wspólne środowiska uruchomieniowe integracji tak blisko źródła danych, jak to możliwe. Środowiska Integration Runtime można wdrożyć w strefie docelowej danych, w chmurach innych firm lub w chmurze prywatnej, pod warunkiem, że maszyna wirtualna ma łączność z wymaganymi źródłami danych.
Zarządzanie
Procesy CI/CD działają na maszynach wirtualnych i pomagają wdrażać artefakty z repozytorium kodu źródłowego, w tym aplikacje danych i zmiany w strefie zbierania danych.
Aby uzyskać więcej informacji, zobacz agentów usługi Azure Pipeline.
Magazyn zewnętrzny
Partnerzy będący wydawcami danych muszą osadzić dane na twojej platformie, aby zespoły ds. aplikacji danych mogły pobierać je do swoich jezior danych. Możesz również mieć wewnętrzne lub zewnętrzne źródła danych, które nie mogą obsługiwać wymagań dotyczących łączności lub uwierzytelniania wymuszonych w pozostałych strefach docelowych danych. Użycie oddzielnego konta magazynu jest zalecanym podejściem do odbierania danych, a następnie współużytkowanego środowiska Integration Runtime lub podobnego procesu pozyskiwania w celu przeniesienia go do potoku przetwarzania. Jak pokazano na poniższym diagramie, grupa zasobów magazynu przesyłania danych wejściowych umożliwia aprowizowanie magazynów blokowych dla tych przypadków użycia.
Zespoły aplikacji danych żądają obiektów blob magazynu. Te żądania są zatwierdzane przez zespół operacyjny strefy docelowej danych. Dane powinny zostać usunięte ze źródłowego obiektu blob magazynu po ich pobraniu do nieprzetworzonego magazynu danych.
Ważny
Ponieważ obiekty blob usługi Azure Storage są aprowizowane w zgodnie z potrzebami, należy początkowo wdrożyć pustą grupę zasobów usług magazynu w każdej strefie docelowej danych.
Pozyskiwanie danych
Ta grupa zasobów jest opcjonalna i nie blokuje wdrażania landing zone. Ma zastosowanie, jeśli masz lub opracowujesz silnik niezależny od rodzaju danych, który automatycznie pobiera dane na podstawie zarejestrowanych metadanych, w tym parametrów połączenia, ścieżek do transferu danych i harmonogramów pobierania.
Grupa zasobów pozyskiwania i przetwarzania ma kluczowe usługi dla tego rodzaju platformy.
Wdróż instancję Azure SQL Database do przechowywania metadanych używanych przez Azure Data Factory. Udostępnienie Azure Key Vault do przechowywania tajnych danych związanych z automatycznymi usługami pobierania. Te tajemnice mogą obejmować:
- Poświadczenia magazynu metadanych usługi Azure Data Factory
- Poświadczenia głównego użytkownika usługi dla zautomatyzowanego procesu pozyskiwania
Aby uzyskać więcej informacji, zobacz Jak zautomatyzowane struktury pozyskiwania obsługują analizę w skali chmury w usłudze Azure.
Usługi zawarte w tej grupie zasobów obejmują:
Usługa | Wymagane | Wytyczne |
---|---|---|
Azure Data Factory | Tak | Azure Data Factory to Twoje narzędzie do orkiestracji umożliwiające pozyskiwanie danych niezależnie od rodzaju danych. |
Azure SQL DB | Tak | Azure SQL DB to magazyn metadanych dla usługi Azure Data Factory. |
Event Hubs lub IoT Hub | Fakultatywny | Usługa Event Hubs lub usługa IoT Hub umożliwia przesyłanie strumieniowe w czasie rzeczywistym do usługi Event Hubs oraz przetwarzanie wsadowe i strumieniowe za pośrednictwem obszaru roboczego inżynierii usługi Databricks. |
Azure Databricks | Fakultatywny | Usługę Azure Databricks lub Azure Synapse Spark można wdrożyć do wykorzystania z niezależnym silnikiem do pozyskiwania danych. |
Azure Synapse | Fakultatywny | Usługę Azure Databricks lub Azure Synapse Spark można wdrożyć w celu użycia z aparatem pozyskiwania danych. |
Aplikacje udostępnione
Ta opcjonalna grupa zasobów jest używana, gdy istnieje potrzeba udostępnienia zestawu usług udostępnionych wszystkim zespołom tworzącym aplikacje danych w tej strefie docelowej danych. Przykładowe zastosowania obejmują:
- Obszar roboczy usługi Azure Databricks używany jako udostępniony magazyn metadanych dla wszystkich innych obszarów roboczych usługi Databricks utworzonych w tej samej strefie docelowej danych (lub regionie)
- Wspólne wystąpienie usługi Azure Synapse Analytics, korzystające z bezserwerowych pul SQL, umożliwia użytkownikom wykonywanie zapytań do izolowanych kont magazynowych.
Notatka
Usługa Azure Databricks używa Unity Catalog do zarządzania dostępem i widocznością metasklepów w obszarach roboczych Databricks. Katalog Unity jest włączony na poziomie dzierżawy, ale magazyny metadanych są dopasowane do regionów Azure. W praktyce oznacza to, że wszystkie obszary robocze usługi Databricks z obsługą Unity Catalog w danym regionie platformy Azure będą musiały zarejestrować się w tym samym magazynie metadanych. Aby uzyskać więcej informacji, zobacz Unity Catalog Best Practices.
Postępuj zgodnie z najlepszymi rozwiązaniami dotyczącymi analizy w skali chmury, aby zintegrować usługę Azure Databricks:
- Bezpieczny dostęp do usługi Azure Data Lake Gen2 z usługi Azure Databricks
- najlepszych rozwiązań usługi Azure Databricks
Aplikacja danych
Każda strefa docelowa danych może mieć wiele aplikacji danych. Te aplikacje można tworzyć, pozyskiwając dane z różnych źródeł. Możesz również tworzyć aplikacje danych z innych aplikacji danych w tej samej strefie docelowej danych lub z innych stref docelowych danych. Tworzenie aplikacji danych podlega zatwierdzeniu przez stewarda danych.
Grupa zasobów aplikacji danych
Grupa zasobów aplikacji danych zawiera wszystkie usługi wymagane do tworzenia tej aplikacji danych. Na przykład usługa Azure Database jest wymagana dla bazy danych MySQL, która jest używana przez narzędzie do wizualizacji. Dane muszą być pozyskiwane i przekształcane, zanim zostaną wprowadzone do tej bazy danych MySQL. W takim przypadku możesz wdrożyć usługę Azure Database for MySQL i usługę Azure Data Factory w grupie zasobów aplikacji danych.
Napiwek
Jeśli zdecydujesz się nie implementować agnostycznego systemu danych do jednorazowego pozyskiwania danych ze źródeł operacyjnych lub jeśli w twoim agnostycznym systemie danych nie są ułatwione złożone połączenia, utwórz aplikację danych dostosowaną do źródła. Aby uzyskać więcej informacji, zobacz Aplikacje danych (wyrównane do źródła).
Aby uzyskać więcej informacji na temat wdrażania produktów danych, zobacz Aplikacje analizy danych w skali chmury na platformie Azure.
Raportowanie i wizualizacja
Narzędzia do wizualizacji i raportowania można używać w Fabric Workspaces, które mają wiele podobieństw do obszarów roboczych Power BI, bez konieczności wdrażania unikatowych zasobów w obszarze przechwytywania danych. Można dołączyć grupę zasobów, aby wdrożyć pojemności Fabric, maszyny wirtualne na potrzeby bram danych lub inne niezbędne usługi danych, aby dostarczyć aplikację danych do użytkownika końcowego.