Udostępnij za pośrednictwem


Produkty danych analizy w skali chmury na platformie Azure

Produkty danych są danymi udostępnianymi jako produkty, obliczane, zapisywane i dostarczane przez usługi persystencji poliglotycznej, które mogą być potrzebne w niektórych przypadkach użycia. Proces tworzenia i obsługi produktu danych może wymagać usług i technologii, które nie są uwzględnione w podstawowych usługach strefy docelowej danych . Przykładem może być raportowanie o niszowych wymaganiach, takich jak zgodność z przepisami i raportowanie podatkowe.

Zagadnienia dotyczące projektowania

Strefa docelowa danych może obsługiwać wiele produktów danych utworzonych przez pozyskiwanie danych z tej samej strefy docelowej danych lub z wielu stref docelowych danych. Jest to pokazane na poniższym diagramie.

Diagram wykorzystania strefy lądowania międzyzestawowej.

W powyższym przykładzie pokazano:

  • Użycie danych wewnątrz strefy:
    • Produkt danych B korzysta z danych z produktu A oraz innych danych lub produktów danych istniejących w jeziorze danych w obrębie własnej strefy docelowej.
    • Produkty danych C i D zużywają dane tylko z własnych stref docelowych danych.
  • Użycie danych między strefami:
    • Produkt danych B używa również danych z produktu danych C i danych w strefie docelowej 3 data lake.

Ważny

W przypadku zużycia danych między strefami, ponieważ produkt danych B jest tworzony przez odczyt ze strefy buforowej danych 3, ten dostęp do odczytu wymaga zatwierdzenia ze strony zespołów operacyjnych strefy buforowej i zespołów operacji integracji i tej strefy.

Ważny

Produkt danych B korzysta z danych z produktów danych A i C. Zanim to się stanie, produkt danych B musi zarejestrować swoje zużycie produktów danych za pośrednictwem umów dotyczących udostępniania danych. Niniejsza umowa dotycząca udostępniania danych powinna zaktualizować pochodzenie produktu danych A do produktu danych B oraz produktu danych C do produktu danych B.

Grupa zasobów produktu danych zawiera wszystkie usługi wymagane do jego utworzenia i obsługi. Możemy nazwać tę grupę zasobów aplikacją danych. Przykłady usług, które mogą być częścią aplikacji danych, to Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Learning, Azure SQL Database, Azure Database for MySQL i Azure Cosmos DB.

Produkty danych zawierają dane ze źródeł danych READ, w których zastosowano pewne przekształcenia danych. Przykłady mogą obejmować nowo wyselekcjonowany zbiór danych lub raport analizy biznesowej.

Zalecenia dotyczące projektowania

Twórz produkty danych w strefie transferu danych, przestrzegając zasad projektowania, które umożliwiają skalowanie przy użyciu zarządzania danymi. W poniższych sekcjach przedstawiono zalecenia projektowe ułatwiające planowanie ekosystemu aplikacji danych.

Wdrażanie wielu grup zasobów

Każda aplikacja danych jest grupą zasobów. Ponieważ aplikacje danych to usługi obliczeniowe, usługi trwałego przechowywania danych lub obie te usługi, mogą być wymagane tylko w zależności od konkretnych przypadków użycia. W związku z tym są one uważane za opcjonalny składnik strefy docelowej danych. W przypadkach, w których potrzebujesz aplikacji danych, utwórz wiele grup zasobów według aplikacji danych, jak pokazano na poniższym diagramie.

Diagram grup zasobów aplikacji danych.

Ustawianie poręczy

Usługa Azure Policy obsługuje domyślną konfigurację usług w strefie docelowej danych. Pomyśl o analizie operacyjnej jako o wielu grupach zasobów, które twój zespół ds. produktów danych może zażądać od standardowego katalogu usług. Za pomocą usługi Azure Policy można skonfigurować granicę zabezpieczeń i wymagany zestaw funkcji.

Ważny

Aby zwiększyć spójność, skonfiguruj jedną usługę Azure Policy dla każdej aplikacji danych.

Korzystanie z danych z wielu miejsc

Aplikacje danych zarządzają, organizują i interpretują dane pochodzące z wielu różnych źródeł danych, a także prezentują wszelkie uzyskane wnioski. Produkt danych jest wynikiem danych pochodzących z jednej lub wielu aplikacji danych w strefach lądowania danych. Zezwalaj aplikacjom danych na dostęp do danych z wielu i różnych źródeł w razie potrzeby.

Skalowanie zgodnie z potrzebami

Usługi tworzące aplikacje danych są wdrożeniami przyrostowymi w strefie docelowej danych. Skaluj aplikacje danych zgodnie z potrzebami.

Włącz odnajdywanie danych

Automatycznie zarejestruj swoje produkty danych w wykazie danych, takim jak Microsoft Purview, aby umożliwić skanowanie danych.

Identyfikowanie produktów danych

Zaczynając planować strefę docelową danych, należy zidentyfikować jak najwięcej produktów danych (oraz aplikacje danych, które je generują i obsługiwać), co jest niezbędne, aby pomóc w planowaniu architektury aplikacji produktów danych. Zgodność z zaimplementowanym ładem platformy powinna odgrywać największą rolę przy podejmowaniu decyzji.

Skoncentruj się na tym, jak aplikacje danych są producentami danych i konsumentami dla innych użytkowników. Załóżmy na przykład, że zidentyfikowano zestaw produktów danych (A, B, C i D), które są związane z produkcją i konsumpcją danych. Produkty danych A i D są wymagane jako źródła danych w aplikacji danych B dla produktu danych B. Produkt danych B jest tworzony na podstawie danych, które aplikacja danych B korzysta z produktów danych A i D. Aplikacja danych B działa jako producent danych, a także tworzy dane dla produktu danych C.

Diagram producenta i konsumentów danych.

Kontrolowanie środowiska aplikacji danych za pomocą infrastruktury jako kodu

Zarządzanie i infrastruktura jako kod (IaaC) powinny kontrolować środowisko aplikacji danych w ekosystemie produktów danych, jak to przedstawiono na wcześniejszym diagramie.

Publikowanie modeli danych

Zespoły ds. produktów danych powinny publikować swoje modele danych w repozytorium modelowania.

Określanie oczekiwań użytkowników produktów danych

Zaktualizuj umowy dotyczące udostępniania danych za pomocą umów dotyczących poziomu usług i certyfikatów dla produktów danych, aby umożliwić przekazywanie dokładnych oczekiwań potencjalnym użytkownikom produktu danych.

Przechwytywanie pochodzenia danych

Jeśli produkt danych B jest tworzony na podstawie danych pochodzących z produktów danych A i D, pochodzenie musi zostać przechwycone od A i D do B. Należy również przechwycić dalsze pochodzenie dla produktu danych C, ponieważ jest tworzony przy użyciu danych z produktu B. Zaktualizowane pochodzenie danych należy przechwycić w aplikacji pochodzenia danych przed każdym wydaniem produktu danych.

Notatka

Korzystanie z usługi Azure Pipelines umożliwia tworzenie bram zatwierdzania i wywoływanie funkcji, które mogą zapewnić, że metadane, rodowód i poziomy świadczenia usług (SLA) są rejestrowane w właściwej usłudze zarządzania.

Definiowanie architektury aplikacji danych

Należy utworzyć szczegółową architekturę dla każdego produktu danych, który w pełni definiuje jego relację z innymi produktami danych, zależnościami i wymaganiami dotyczącymi dostępu.

Następne kroki

Aplikacje danych (wyrównane do źródła)