Standardy metadanych
Zarządzanie metadanymi odgrywa kluczową rolę w architekturze danych. Metadane to dane dotyczące innych danych. Opisuje on dane, podając informacje ułatwiające znajdowanie, zabezpieczanie i kontrolowanie danych. Metadane wiążą również dane ze sobą. Może służyć do weryfikowania integralności i jakości danych, kierowania lub replikowania danych do nowej lokalizacji, przekształcania danych i zrozumienia znaczenia danych. Metadane są również niezbędne w demokratyzowaniu danych za pośrednictwem portali samoobsługowych.
W branży rośnie trend, który przybliża szczegółowe informacje o danych do analityków danych i analityków korzystających z portali korzystających z większej liczby metadanych. Ten trend jest znany jako obserwowanie danych. Możliwość obserwowania danych używa takich pojęć jak metadane lake, grafy wiedzy lub grafy metadanych do opisywania platform, na których metadane są scentralizowane. Dobrym sposobem jest utworzenie ujednoliconego widoku wykorzystania i źródła danych w całej organizacji podczas korzystania z rozproszonej siatki danych.
Dobra strategia zarządzania metadanymi rośnie w sposób organiczny. Zaczyna się to od prostego i małego, najpierw identyfikując najważniejsze obszary. Dobra strategia zarządzania metadanymi jest również wspierana przez usługi i przejrzyste procesy. Aby rozpocząć pracę, warto pamiętać o różnych kategoriach metadanych:
- Metadane biznesowe opisują wszystkie aspekty używane do zapewniania ładu, znajdowania i rozumienia danych. Niektóre dobrze znane przykłady obejmują terminy biznesowe i definicje oraz informacje na temat własności, użycia i pochodzenia danych.
- Metadane techniczne opisują strukturalne aspekty danych w czasie projektowania. Niektóre znane przykłady obejmują informacje o schemacie, format danych i informacje o protokole oraz klucze szyfrowania i odszyfrowywania.
- Metadane operacyjne opisują aspekty przetwarzania danych w czasie wykonywania. Niektóre znane przykłady obejmują informacje o procesie, czas wykonywania, informacje o niepowodzeniu procesu i identyfikatory zadań.
- Metadane społecznościowe opisują perspektywę użytkownika danych od użytkowników. Niektóre dobrze znane przykłady obejmują informacje o użyciu i śledzeniu użytkowników, dane wyników wyszukiwania, filtry i kliknięcia, czas wyświetlania, trafienia profilu i komentarze.
W zdecentralizowanej architekturze danych zarządzanie metadanymi jest wyzwaniem organizacyjnym, które wymaga znalezienia równowagi między centralnie zarządzanymi metadanymi i zarządzanymi metadanymi federacyjnymi. Ważne jest, aby zrozumieć zespoły i funkcje analizy w skali chmury na platformie Azure podczas planowania zarządzania metadanymi. Użycie rozwiązania do wspólnego zarządzania danymi może poprawić komunikację, integrację i automatyzację przepływu danych między zespołami. Można rozwiązać część złożoności zarządzania metadanymi poprzez znalezienie równowagi między centralnym zarządzaniem a szerokimi kompetencjami w obrębie domen.
Podczas podejmowania decyzji o tym, jakie metadane mają zarządzać centralnie lub sfederować z domenami danych i rozpocząć implementację, zadaj sobie pytanie:
- Jakie metadane biznesowe są krytyczne?
- Jakie metadane techniczne są wymagane do współdziałania?
- Jakie procesy i strumienie przechwytują dane?
- Gdzie są tworzone i obsługiwane modele lub schematy?
- Jakie informacje zespoły muszą dostarczać centralnie, aby umożliwić działowi ładu danych prawidłowe wykonywanie pracy?
Korzystając z odpowiedzi na te pytania, zamapuj cykl życia zawartości dla każdego strumieni metadanych i określ wszystkie zależności. Następnie masz model metadanych, który umożliwia łączenie domen biznesowych, procesów, technologii i danych.
Po zapoznaniu się z potrzebnymi metadanymi należy wybrać miejsce do przechowywania i przetwarzania. W tym celu możesz użyć usługi Microsoft Purview.
Zarządzanie zasobami danych za pomocą usługi Microsoft Purview
Microsoft Purview to ujednolicone rozwiązanie do zapewniania ładu danych, które ułatwia zarządzanie danymi lokalnymi, wielochmurowymi i danymi SaaS (software-as-a-service). Zarządza metadanymi na dużą skalę, ponieważ jest to w pełni zautomatyzowana usługa, która inteligentnie wykonuje odnajdywanie danych, skanowanie danych, jakość danych i zarządzanie dostępem. Zapewnia również całościową mapę z wieloma szczegółowymi informacjami na temat architektury siatki danych.
Microsoft Purview to kompleksowy zestaw rozwiązań, które mogą pomóc organizacji zarządzać danymi, chronić je i zarządzać nimi niezależnie od tego, gdzie się znajduje. Rozwiązania Microsoft Purview zapewniają zintegrowane pokrycie i pomagają rozwiązać problem fragmentacji danych w organizacjach, brak widoczności, który utrudnia ochronę danych i nadzór oraz rozmycie tradycyjnych ról zarządzania IT.
Usługa Microsoft Purview łączy rozwiązania i usługi w zakresie zapewniania ładu i zgodności danych w ujednoliconą platformę, aby pomóc organizacji:
- Uzyskiwanie wglądu w dane w całej organizacji
- Zabezpieczaj i zarządzaj poufnymi danymi w całym cyklu życia, niezależnie od tego, gdzie się znajdują.
- Bezproblemowe zarządzanie danymi w nowy, kompleksowy sposób
- Zarządzanie krytycznymi zagrożeniami dotyczącymi danych i wymaganiami prawnymi
Podczas implementowania usługi Microsoft Purview unikaj szybkiego wprowadzania zbyt dużej zmiany i złożoności. Metadane techniczne stanowią podstawę usługi Microsoft Purview. Aby zrozumieć swoje metadane, musisz je najpierw zebrać i zorganizować.
Po wprowadzeniu metadanych zacznij od podstaw:
- Warunki biznesowe
- Listy autorytatywnych źródeł danych
- Listy baz danych
- Domeny ładu
- Informacje o schemacie
- Własność danych
- Zarządzanie danymi
- Zabezpieczenia
- Jakość danych
Następnie skaluj przez powolne zaangażowanie większej liczby właścicieli domeny i stewardów danych oraz dodając więcej klasyfikacji i etykiet poufności. Te dodatki usprawniają środowisko wyszukiwania i umożliwiają lepsze zarządzanie dostępem do danych.
Usługa Microsoft Purview oferuje funkcję o nazwie domeny ładu, która ustanawia granice ujednoliconego ładu, własności i odnajdywania produktów danych i pojęć biznesowych w ramach architektury zorientowanej na domenę. Aby uzyskać więcej informacji, zapoznaj się z obszarami ładu w usłudze Microsoft Purview.
Tworzenie grafu wiedzy przy użyciu usługi Azure Cosmos DB
Rozwiązanie do analizy danych musi opisywać sposób użycia danych oraz relacje między jednostkami, takimi jak dane źródłowe i produkty danych, oraz między produktami danych z jednej domeny i produktów zależnych z innej domeny. Do modelowania tych relacji można użyć grafowej bazy danych lub niestandardowego interfejsu użytkownika.
Aby utworzyć ujednolicony widok danych organizacji przy użyciu niestandardowego środowiska użytkownika, rozważ użycie usługi Azure Cosmos DB. Azure Cosmos DB to globalnie rozproszona, wielomodelowa usługa bazy danych z punktami końcowymi NoSQL. Udostępnia ona usługę grafowej bazy danych za pośrednictwem usługi Azure Cosmos DB dla języka Apache Gremlin, która może przechowywać ogromne grafy z miliardami wierzchołków i krawędzi.
Wynikiem końcowym architektury usługi Azure Cosmos DB jest graf na poziomie całej organizacji, który zapewnia ujednolicony widok wszystkich danych w organizacji z pełnym kontekstem. Usługa Metadata Lake nie tylko polega na przechowywaniu informacji. Ponadto aktywnie organizuje metadane jako graf, łącząc je z innymi usługami i narzędziami. Ten zorganizowany wykres umożliwia krzyżowe skorelowanie wielu obszarów tematów, w tym:
- Domeny
- Jakość danych
- Użycie danych
- Możliwości biznesowe
- Funkcje aplikacji
- Informacje o architekturze technicznej
- Zdarzenia operacyjne
- Metadane organizacyjne
- Metadane własności aplikacji
- Informacje o lokalizacji
- Informacje o zarządzaniu cyklem życia aplikacji