Udostępnij za pośrednictwem


Produkty danych analizy w skali chmury na platformie Azure

Produkty danych są danymi obsługiwanymi jako produkty i obliczone, zapisane i obsługiwane przez usługi trwałości wielolotowej, które mogą być wymagane przez niektóre przypadki użycia. Proces tworzenia i obsługi produktu danych może wymagać usług i technologii, które nie są uwzględnione w podstawowych usługach strefy docelowej danych. Przykładem może być raportowanie z wymaganiami niszowymi, takimi jak zgodność i raportowanie podatków.

Uwagi dotyczące projektowania

Strefę docelową danych można obsłużyć wiele produktów danych utworzonych przez pozyskiwanie danych z tej samej strefy docelowej danych lub z wielu stref docelowych danych. Jest to pokazane na poniższym diagramie.

Diagram przedstawiający użycie strefy docelowej między danymi.

W powyższym przykładzie pokazano:

  • Użycie danych wewnątrz strefy:
    • Produkt danych B korzysta z danych z produktu A i innych danych lub produktów danych istniejących w usłudze Data Lake w ramach własnej strefy docelowej.
    • Produkty danych C i D zużywają dane tylko z własnych stref docelowych danych.
  • Użycie danych między strefami:
    • Produkt danych B używa również danych z produktu danych C i danych w strefie docelowej 3 data lake.

Ważne

W przypadku użycia danych międzystrefowych, ponieważ produkt B danych jest tworzony przez odczyt ze strefy docelowej danych 3, ten dostęp do odczytu wymaga zatwierdzenia przez zespoły operacji strefy docelowej danych i operacji integracji w strefie docelowej danych 3.

Ważne

Produkt danych B korzysta z danych z produktów danych A i C. Zanim to się stanie, produkt danych B musi zarejestrować swoje zużycie produktów danych za pośrednictwem umów dotyczących udostępniania danych. Niniejsza umowa dotycząca udostępniania danych powinna zaktualizować pochodzenie produktów danych A do produktu B danych i produktu danych C do produktu danych B.

Grupa zasobów produktu danych zawiera wszystkie usługi wymagane do jego utworzenia i obsługi. Możemy wywołać tę grupę zasobów jako aplikację danych. Przykłady usług, które mogą być częścią aplikacji danych, to Azure Functions, aplikacja systemu Azure Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Edukacja, Azure SQL Database, Azure Database for MySQL i Azure Cosmos DB. Aby uzyskać więcej informacji, zobacz przykłady aplikacji danych.

Produkty danych zawierają dane ze źródeł danych READ , w których zastosowano pewne przekształcenia danych. Przykłady mogą być nowo wyselekcjonowanych zestawów danych lub raport analizy biznesowej.

Zalecenia dotyczące projektowania

Twórz produkty danych w strefie docelowej danych, przestrzegając zasad projektowania, które umożliwiają skalowanie przy użyciu ładu danych. W poniższych sekcjach przedstawiono zalecenia projektowe ułatwiające planowanie ekosystemu aplikacji danych.

Wdrażanie wielu grup zasobów

Każda aplikacja danych jest grupą zasobów. Ponieważ aplikacje danych to usługi obliczeniowe, usługi trwałości wielolotowej lub oba te usługi, mogą być wymagane tylko w zależności od niektórych przypadków użycia. W związku z tym są one uważane za opcjonalny składnik strefy docelowej danych. W przypadku, gdy potrzebujesz aplikacji danych, utwórz wiele grup zasobów według aplikacji danych, jak pokazano na poniższym diagramie.

Diagram grup zasobów aplikacji danych.

Ustawianie poręczy

Usługa Azure Policy obsługuje domyślną konfigurację usług w strefie docelowej danych. Analiza operacyjna to wiele grup zasobów, których zespół ds. danych może zażądać od standardowego katalogu usług. Za pomocą usługi Azure Policy można skonfigurować granicę zabezpieczeń i wymagany zestaw funkcji.

Ważne

Aby zwiększyć spójność, skonfiguruj jedną usługę Azure Policy dla każdej aplikacji danych.

Korzystanie z danych z wielu miejsc

Aplikacje danych zarządzają danymi, organizują je i mają sens z wielu zasobów danych i prezentują wszelkie uzyskane szczegółowe informacje. Produkt danych jest wynikiem danych z jednej lub wielu aplikacji danych w strefach docelowych danych. Zezwalaj aplikacjom danych na dostęp do danych z wielu i różnych źródeł w razie potrzeby.

Skalowanie zgodnie z potrzebami

Usługi tworzące aplikacje danych są wdrożeniami przyrostowymi w strefie docelowej danych. Skaluj aplikacje danych zgodnie z potrzebami.

Włączanie odnajdywania danych

Automatyczne rejestrowanie produktów danych w wykazie danych, takim jak Azure Purview , w celu umożliwienia skanowania danych.

Identyfikowanie produktów danych

Zaczynając planować strefę docelową danych, należy zidentyfikować jak najwięcej produktów danych (oraz aplikacje danych, które je generują i obsługiwać), co jest niezbędne, aby pomóc w planowaniu architektury aplikacji produktów danych. Zgodność z zaimplementowaną ładem platformy powinna odgrywać największą rolę w decyzjach.

Skoncentruj się na tym, jak aplikacje danych są producentami danych i konsumentami dla innych użytkowników. Załóżmy na przykład, że zidentyfikowano zestaw produktów danych (A, B, C i D), które są tworzone i używane dane. Produkty danych A i D są wymagane jako źródła danych w aplikacji danych B dla produktu danych B. Produkt danych B jest tworzony na podstawie danych, które aplikacja danych B korzysta z produktów danych A i D. Aplikacja danych B działa jako producent danych, a także tworzy dane dla produktu danych C.

Diagram producenta danych i konsumentów.

Kontrolowanie środowiska aplikacji danych za pomocą infrastruktury jako kodu

Ład i infrastruktura jako kod powinny kontrolować środowisko aplikacji danych w ekosystemie produktów danych, jak pokazano na poprzednim diagramie.

Publikowanie modeli danych

Zespoły ds. produktów danych powinny publikować swoje modele danych w repozytorium modelowania.

Określanie oczekiwań użytkowników produktów danych

Zaktualizuj kontrakty udostępniania danych za pomocą umów dotyczących poziomu usług i certyfikatów dla produktów danych, aby przekazać dokładne oczekiwania potencjalnym użytkownikom produktu danych.

Przechwytywanie pochodzenia danych

Jeśli produkt danych B jest tworzony na podstawie danych pochodzących z produktów danych A i D, pochodzenie musi zostać przechwycone z A i D do B. Należy również przechwycić dalszą pochodzenie dla produktu danych C, ponieważ jest on tworzony przy użyciu danych z produktu B. Zaktualizowany pochodzenie danych należy przechwycić w aplikacji pochodzenia danych przed każdym wydaniem produktu danych.

Uwaga

Korzystanie z usługi Azure Pipelines umożliwia tworzenie bram zatwierdzania i wywoływanie funkcji, które umożliwiają upewnienie się, że metadane, pochodzenie i umowy SLA są zarejestrowane w odpowiedniej usłudze ładu.

Definiowanie architektury aplikacji danych

Należy utworzyć szczegółową architekturę dla każdego produktu danych, który w pełni definiuje jego relację z innymi produktami danych, zależnościami i wymaganiami dotyczącymi dostępu.

Przykładowy scenariusz projektowania

Aby zrozumieć proces definicji architektury, zapoznaj się z poniższym przykładem instytucji finansowej i jego produktu do monitorowania środków.

Diagram przedstawiający szczegółowo architekturę define-data-product.

Produkt danych monitorowania środków przedstawiony na tym diagramie korzysta z danych z odczytu magazynu danych pozyskanego przez zespół ds. operacji integracji. Tworzy również produkty danych używane przez dwa inne produkty danych.

Uwaga

Źródło lub magazyn danych odczytu jest również znany jako źródło złotego rekordu. Te źródła danych zostały oczyszczone, ale nie zastosowano do nich żadnych przekształceń.

Zespół ds. danych monitorowania środków żąda dostępu do odczytu do odczytu magazynów danych potrzebnych do utworzenia produktu danych. Ich żądania są kierowane do właścicieli danych do zatwierdzenia. Po otrzymaniu zatwierdzenia zespół produktu może rozpocząć tworzenie aplikacji danych.

Dane ze źródła danych odczytu są przekształcane w produkty danych monitorowania środków. Wszystkie nowe produkty danych są przechowywane w wyselekcjonowanych warstwach usługi Data Lake. Te nowe produkty danych i nowe pochodzenie danych powinny być zarejestrowane w ramach procesu wdrażania metodyki DevOps. Funkcja może sprawdzić zarejestrowane metadane przy użyciu fizycznej struktury zasobu danych. Powinna ona zarejestrować zależność od zasobów danych i produktów danych źródła danych odczytu.

Zespół ds. danych zatwierdzenia pożyczki jest zależny od niektórych produktów danych monitorowania środków. Zespół zatwierdzania pożyczek może poprosić o dostęp do odczytu produktów danych monitorowania środków, których potrzebują dla swoich produktów danych. Po wydaniu danych dotyczących zatwierdzenia pożyczki produktu i jego aplikacji danych wszystkie zasoby produktów danych, pochodzenie i modele powinny być zarejestrowane w odpowiednich usługach ładu.

Przykładowe aplikacje danych

Poniższe sekcje zawierają przykładowe aplikacje danych, aby dokładniej zilustrować scenariusze aplikacji danych.

Analiza danych i aplikacja do nauki o danych

Aplikacja do analizy danych i nauki o danych może zawierać usługi wyświetlane w przykładowej aplikacji product-analytics-rgdanych .

Diagram przedstawiający możliwe usługi, które można wybrać dla wdrożenia aplikacji danych analizy.

Uwaga

Poprzednią aplikację danych można użyć jako szablonu. Ten szablon wdraża zestaw usług, których można używać do analizy danych i nauki o danych. Za pomocą tego szablonu aplikacji produktu danych można szybko tworzyć środowiska dla zespołów funkcjonalnych. Musisz jawnie wyłączyć wszystkie usługi, których nie potrzebujesz.

Szablon Analizy produktów danych zawiera wszystkie szablony wdrażania produktu danych na potrzeby analizy i nauki o danych w strefie docelowej danych scenariusza analizy w skali chmury.

Artefakty wdrażania i kodu obejmują następujące usługi:

Aplikacja danych wsadowych

Szablon aplikacji danych wsadowych zawiera wszystkie szablony wdrażania produktu danych na potrzeby przetwarzania danych wsadowych w strefie docelowej danych w skali chmury.

Artefakty wdrażania i kodu obejmują następujące usługi:

Diagram przedstawiający możliwe usługi, które można wybrać dla wdrożenia aplikacji danych usługi Batch.

Aplikacja do przesyłania strumieniowego danych

Szablon aplikacji do przesyłania strumieniowego danych zawiera wszystkie szablony wdrażania produktu danych na potrzeby przetwarzania danych w czasie rzeczywistym w strefie docelowej danych scenariusza analizy w skali chmury

Artefakty wdrażania i kodu obejmują następujące usługi:

Diagram przedstawiający możliwe usługi, które można wybrać dla wdrożenia aplikacji danych przesyłanych strumieniowo.

Aby znaleźć repozytoria zawierające wcześniej wymienione szablony wdrażania, zapoznaj się z szablonami wdrażania na potrzeby analizy w skali chmury

Następne kroki

Aplikacje danych (wyrównane do źródła)