Produkty danych analizy w skali chmury na platformie Azure
Produkty danych są danymi obsługiwanymi jako produkty i obliczone, zapisane i obsługiwane przez usługi trwałości wielolotowej, które mogą być wymagane przez niektóre przypadki użycia. Proces tworzenia i obsługi produktu danych może wymagać usług i technologii, które nie są uwzględnione w podstawowych usługach strefy docelowej danych. Przykładem może być raportowanie z wymaganiami niszowymi, takimi jak zgodność i raportowanie podatków.
Uwagi dotyczące projektowania
Strefę docelową danych można obsłużyć wiele produktów danych utworzonych przez pozyskiwanie danych z tej samej strefy docelowej danych lub z wielu stref docelowych danych. Jest to pokazane na poniższym diagramie.
W powyższym przykładzie pokazano:
- Użycie danych wewnątrz strefy:
- Produkt danych B korzysta z danych z produktu A i innych danych lub produktów danych istniejących w usłudze Data Lake w ramach własnej strefy docelowej.
- Produkty danych C i D zużywają dane tylko z własnych stref docelowych danych.
- Użycie danych między strefami:
- Produkt danych B używa również danych z produktu danych C i danych w strefie docelowej 3 data lake.
Ważne
W przypadku użycia danych międzystrefowych, ponieważ produkt B danych jest tworzony przez odczyt ze strefy docelowej danych 3, ten dostęp do odczytu wymaga zatwierdzenia przez zespoły operacji strefy docelowej danych i operacji integracji w strefie docelowej danych 3.
Ważne
Produkt danych B korzysta z danych z produktów danych A i C. Zanim to się stanie, produkt danych B musi zarejestrować swoje zużycie produktów danych za pośrednictwem umów dotyczących udostępniania danych. Niniejsza umowa dotycząca udostępniania danych powinna zaktualizować pochodzenie produktów danych A do produktu B danych i produktu danych C do produktu danych B.
Grupa zasobów produktu danych zawiera wszystkie usługi wymagane do jego utworzenia i obsługi. Możemy wywołać tę grupę zasobów jako aplikację danych. Przykłady usług, które mogą być częścią aplikacji danych, to Azure Functions, aplikacja systemu Azure Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Edukacja, Azure SQL Database, Azure Database for MySQL i Azure Cosmos DB. Aby uzyskać więcej informacji, zobacz przykłady aplikacji danych.
Produkty danych zawierają dane ze źródeł danych READ , w których zastosowano pewne przekształcenia danych. Przykłady mogą być nowo wyselekcjonowanych zestawów danych lub raport analizy biznesowej.
Zalecenia dotyczące projektowania
Twórz produkty danych w strefie docelowej danych, przestrzegając zasad projektowania, które umożliwiają skalowanie przy użyciu ładu danych. W poniższych sekcjach przedstawiono zalecenia projektowe ułatwiające planowanie ekosystemu aplikacji danych.
Wdrażanie wielu grup zasobów
Każda aplikacja danych jest grupą zasobów. Ponieważ aplikacje danych to usługi obliczeniowe, usługi trwałości wielolotowej lub oba te usługi, mogą być wymagane tylko w zależności od niektórych przypadków użycia. W związku z tym są one uważane za opcjonalny składnik strefy docelowej danych. W przypadku, gdy potrzebujesz aplikacji danych, utwórz wiele grup zasobów według aplikacji danych, jak pokazano na poniższym diagramie.
Ustawianie poręczy
Usługa Azure Policy obsługuje domyślną konfigurację usług w strefie docelowej danych. Analiza operacyjna to wiele grup zasobów, których zespół ds. danych może zażądać od standardowego katalogu usług. Za pomocą usługi Azure Policy można skonfigurować granicę zabezpieczeń i wymagany zestaw funkcji.
Ważne
Aby zwiększyć spójność, skonfiguruj jedną usługę Azure Policy dla każdej aplikacji danych.
Korzystanie z danych z wielu miejsc
Aplikacje danych zarządzają danymi, organizują je i mają sens z wielu zasobów danych i prezentują wszelkie uzyskane szczegółowe informacje. Produkt danych jest wynikiem danych z jednej lub wielu aplikacji danych w strefach docelowych danych. Zezwalaj aplikacjom danych na dostęp do danych z wielu i różnych źródeł w razie potrzeby.
Skalowanie zgodnie z potrzebami
Usługi tworzące aplikacje danych są wdrożeniami przyrostowymi w strefie docelowej danych. Skaluj aplikacje danych zgodnie z potrzebami.
Włączanie odnajdywania danych
Automatyczne rejestrowanie produktów danych w wykazie danych, takim jak Azure Purview , w celu umożliwienia skanowania danych.
Identyfikowanie produktów danych
Zaczynając planować strefę docelową danych, należy zidentyfikować jak najwięcej produktów danych (oraz aplikacje danych, które je generują i obsługiwać), co jest niezbędne, aby pomóc w planowaniu architektury aplikacji produktów danych. Zgodność z zaimplementowaną ładem platformy powinna odgrywać największą rolę w decyzjach.
Skoncentruj się na tym, jak aplikacje danych są producentami danych i konsumentami dla innych użytkowników. Załóżmy na przykład, że zidentyfikowano zestaw produktów danych (A, B, C i D), które są tworzone i używane dane. Produkty danych A i D są wymagane jako źródła danych w aplikacji danych B dla produktu danych B. Produkt danych B jest tworzony na podstawie danych, które aplikacja danych B korzysta z produktów danych A i D. Aplikacja danych B działa jako producent danych, a także tworzy dane dla produktu danych C.
Kontrolowanie środowiska aplikacji danych za pomocą infrastruktury jako kodu
Ład i infrastruktura jako kod powinny kontrolować środowisko aplikacji danych w ekosystemie produktów danych, jak pokazano na poprzednim diagramie.
Publikowanie modeli danych
Zespoły ds. produktów danych powinny publikować swoje modele danych w repozytorium modelowania.
Określanie oczekiwań użytkowników produktów danych
Zaktualizuj kontrakty udostępniania danych za pomocą umów dotyczących poziomu usług i certyfikatów dla produktów danych, aby przekazać dokładne oczekiwania potencjalnym użytkownikom produktu danych.
Przechwytywanie pochodzenia danych
Jeśli produkt danych B jest tworzony na podstawie danych pochodzących z produktów danych A i D, pochodzenie musi zostać przechwycone z A i D do B. Należy również przechwycić dalszą pochodzenie dla produktu danych C, ponieważ jest on tworzony przy użyciu danych z produktu B. Zaktualizowany pochodzenie danych należy przechwycić w aplikacji pochodzenia danych przed każdym wydaniem produktu danych.
Uwaga
Korzystanie z usługi Azure Pipelines umożliwia tworzenie bram zatwierdzania i wywoływanie funkcji, które umożliwiają upewnienie się, że metadane, pochodzenie i umowy SLA są zarejestrowane w odpowiedniej usłudze ładu.
Definiowanie architektury aplikacji danych
Należy utworzyć szczegółową architekturę dla każdego produktu danych, który w pełni definiuje jego relację z innymi produktami danych, zależnościami i wymaganiami dotyczącymi dostępu.
Przykładowy scenariusz projektowania
Aby zrozumieć proces definicji architektury, zapoznaj się z poniższym przykładem instytucji finansowej i jego produktu do monitorowania środków.
Produkt danych monitorowania środków przedstawiony na tym diagramie korzysta z danych z odczytu magazynu danych pozyskanego przez zespół ds. operacji integracji. Tworzy również produkty danych używane przez dwa inne produkty danych.
Uwaga
Źródło lub magazyn danych odczytu jest również znany jako źródło złotego rekordu. Te źródła danych zostały oczyszczone, ale nie zastosowano do nich żadnych przekształceń.
Zespół ds. danych monitorowania środków żąda dostępu do odczytu do odczytu magazynów danych potrzebnych do utworzenia produktu danych. Ich żądania są kierowane do właścicieli danych do zatwierdzenia. Po otrzymaniu zatwierdzenia zespół produktu może rozpocząć tworzenie aplikacji danych.
Dane ze źródła danych odczytu są przekształcane w produkty danych monitorowania środków. Wszystkie nowe produkty danych są przechowywane w wyselekcjonowanych warstwach usługi Data Lake. Te nowe produkty danych i nowe pochodzenie danych powinny być zarejestrowane w ramach procesu wdrażania metodyki DevOps. Funkcja może sprawdzić zarejestrowane metadane przy użyciu fizycznej struktury zasobu danych. Powinna ona zarejestrować zależność od zasobów danych i produktów danych źródła danych odczytu.
Zespół ds. danych zatwierdzenia pożyczki jest zależny od niektórych produktów danych monitorowania środków. Zespół zatwierdzania pożyczek może poprosić o dostęp do odczytu produktów danych monitorowania środków, których potrzebują dla swoich produktów danych. Po wydaniu danych dotyczących zatwierdzenia pożyczki produktu i jego aplikacji danych wszystkie zasoby produktów danych, pochodzenie i modele powinny być zarejestrowane w odpowiednich usługach ładu.
Przykładowe aplikacje danych
Poniższe sekcje zawierają przykładowe aplikacje danych, aby dokładniej zilustrować scenariusze aplikacji danych.
Analiza danych i aplikacja do nauki o danych
Aplikacja do analizy danych i nauki o danych może zawierać usługi wyświetlane w przykładowej aplikacji product-analytics-rg
danych .
Uwaga
Poprzednią aplikację danych można użyć jako szablonu. Ten szablon wdraża zestaw usług, których można używać do analizy danych i nauki o danych. Za pomocą tego szablonu aplikacji produktu danych można szybko tworzyć środowiska dla zespołów funkcjonalnych. Musisz jawnie wyłączyć wszystkie usługi, których nie potrzebujesz.
Szablon Analizy produktów danych zawiera wszystkie szablony wdrażania produktu danych na potrzeby analizy i nauki o danych w strefie docelowej danych scenariusza analizy w skali chmury.
Artefakty wdrażania i kodu obejmują następujące usługi:
- Machine Learning
- Magazyn kluczy
- Application Insights
- Storage
- Container Registry
- Cognitive Services (opcjonalnie)
- Data Factory (wybierz między usługą Data Factory i usługą Synapse)
- Obszar roboczy usługi Synapse (wybierz między usługą Data Factory i usługą Synapse)
- Azure Search (opcjonalnie)
- Pula SQL (opcjonalnie)
- Pula BigData (opcjonalnie)
Aplikacja danych wsadowych
Szablon aplikacji danych wsadowych zawiera wszystkie szablony wdrażania produktu danych na potrzeby przetwarzania danych wsadowych w strefie docelowej danych w skali chmury.
Artefakty wdrażania i kodu obejmują następujące usługi:
- Magazyn kluczy
- Data Factory (wybierz między usługą Data Factory i usługą Synapse)
- Azure Cosmos DB (opcjonalnie)
- Obszar roboczy usługi Synapse (wybierz między usługą Data Factory i usługą Synapse)
- Baza danych MySQL (opcjonalnie)
- Azure SQL Database (opcjonalnie)
- Baza danych PostgreSQL (opcjonalnie)
- Baza danych MariaDB (opcjonalnie)
- Pula SQL (opcjonalnie)
- SQL Server (opcjonalnie)
- Elastyczna pula SQL (opcjonalnie)
- Pula BigData
Aplikacja do przesyłania strumieniowego danych
Szablon aplikacji do przesyłania strumieniowego danych zawiera wszystkie szablony wdrażania produktu danych na potrzeby przetwarzania danych w czasie rzeczywistym w strefie docelowej danych scenariusza analizy w skali chmury
Artefakty wdrażania i kodu obejmują następujące usługi:
- Magazyn kluczy
- Event Hubs
- IoT Hub
- Stream Analytics (opcjonalnie)
- Azure Cosmos DB (opcjonalnie)
- Obszar roboczy usługi Synapse
- Azure SQL Database (opcjonalnie)
- Pula SQL (opcjonalnie)
- SQL Server (opcjonalnie)
- Elastyczna pula SQL (opcjonalnie)
- Pula BigData
- Eksplorator danych (opcjonalnie)
Aby znaleźć repozytoria zawierające wcześniej wymienione szablony wdrażania, zapoznaj się z szablonami wdrażania na potrzeby analizy w skali chmury