Co to jest produkt danych?
Każda aplikacja tworzy i przechowuje dane tymczasowo lub trwale. Wiele aplikacji tworzy również i zapisuje dane na potrzeby zarządzania operacyjnego, takie jak rejestrowanie błędów i monitorowanie kondycji. Aby korzystać z tych aplikacji i przetwarzać je, scentralizowane zespoły danych używają procesów wyodrębniania, przekształcania i ładowania (ETL). Zespoły operacji aplikacji często mają inne przepływy przetwarzania danych dla danych, takich jak dane kondycji aplikacji i dane monitorowania stanu kluczowego wskaźnika wydajności.
W przypadku integracji danych tradycyjne podejście kaskadowe, w którym zespoły stosują określoną kolejność faz, nie jest idealne. Może to prowadzić do luk w wiedzy, problemów z własnością i konfliktów komunikacyjnych, które wpływają na jakość, terminy i wartość danych dla użytkowników. Zespoły aplikacji są odpowiedzialne za wydajność i sukces aplikacji. Gdy używają podejścia kaskadowego, wprowadzają zmiany w procesach kolejnych, które są zarządzane przez inne zespoły. Czasami te zmiany mogą mieć wpływ na inne obszary. Na przykład niewielka zmiana nadrzędna może znacząco zmienić trend kluczowego wskaźnika wydajności. Te konflikty mogą mieć wpływ na zdolność do podejmowania krytycznych decyzji.
Dane jako produkt
Aby zapobiec tym problemom, podejście siatka danych przyjmuje koncepcję danych jako produktu. Właściciele aplikacji i zespoły ds. aplikacji traktują dane jako w pełni zawarty produkt, za który są odpowiedzialni, a nie za produkt uboczny procesu innego zespołu. Zarówno aplikacje, jak i zadania obsługujące dane analityczne znajdują się w obszarach odpowiedzialności domeny.
Produkty danych są tworzone specjalnie do użycia analitycznego. Zdefiniowali i uzgodnili kształty, interfejsy zużycia oraz cykle konserwacji i odświeżania, z których wszystkie zostały udokumentowane.
Produkty danych to przetworzone zasoby danych domenowych lub zestawy danych, które można udostępniać procesom podrzędnym za pośrednictwem interfejsów w ramach celu poziomu usług. O ile nie jest to wymagane, należy przetwarzać, kształtować, czyścić, agregować i normalizować nieprzetworzone dane w celu spełnienia uzgodnionych standardów jakości przed udostępnieniem ich do użytku.
W poniższych sekcjach opisano typowe cechy dobrych produktów danych.
Charakterystyka produktu danych
Upewnij się, że produkty danych są następujące:
Możliwe do odnalezienia, zrozumiałe i godne zaufania. Aby zapewnić czytelność i przejrzystość, udostępnij i zaktualizuj informacje o każdym produkcie danych, jego danych, jego znaczeniu, formacie kształtu danych i cyklu odświeżania. Przekazywanie zmian danych lub zmian kształtu użytkownikom podrzędnym w odpowiednim czasie. Aby zapewnić wiarygodność, interfejsy zapewniają ograniczoną w czasie zgodność wstecz dla kształtów produktów danych.
Adresowalne, natywnie dostępne i bezpieczne. Aby zapewnić możliwość adresowania, utwórz zdefiniowane procesy w celu zlokalizowania i uzyskania dostępu do każdego produktu danych. Zaimplementuj środki zabezpieczeń pod kątem różnych wymagań dostępu. Przenieś mentalność własności domeny danych z ograniczania dostępu do danych na ich udostępnianie przy użyciu dobrze zdefiniowanych środków bezpieczeństwa. Dobrze udokumentowane interfejsy dostępu mogą się różnić w różnych technologiach. Najczęściej używane interfejsy dla produktów danych z natywnie dostępnymi danymi obejmują interfejsy API, użytkowników bazy danych, tabele lub widoki oraz pliki z wymaganymi prawami dostępu.
Interoperacyjny, prawdziwy i wartościowy. Aby zapewnić współdziałanie, upewnij się, że dane są zgodne ze zdefiniowanymi typowymi standardami, takimi jak wartości o tej samej nazwie i typie danych. Możesz na przykład nazwać kolumnę zawierającą dane identyfikacyjne klienta CustomerID w każdym produkcie danych, a jego dane mogą być zawsze liczbą całkowitą. Produkty danych zapewniają klientom wartość i można ich używać jako nadrzędnych źródeł dla nowych produktów danych w tej samej domenie lub różnych domenach. Nie można jednak po prostu przenosić i kopiować tego samego produktu danych w wielu miejscach. Każdy produkt danych pochodzący z poprzedniego produktu danych powinien dostarczać nowe wartości i informacje konsumentom podrzędnym. Produkty danych muszą również dostarczać prawdziwe, dokładne dane.
Używaj dobrze zaprojektowanych, dobrze utrzymywanych produktów danych i ich interfejsów, aby uniknąć duplikowania danych i utworzyć natywne pojedyncze źródło prawdy.
Zalecenia dotyczące projektowania produktów danych
Aby spełnić wymagania dotyczące obsługi danych, zespoły domen muszą uzyskać nowy zestaw umiejętności i korzystać z nowych narzędzi i platform.
Aby tworzyć aplikacje danych i tworzyć lub obsługiwać produkty danych, w pełni wyposaż zespoły do tworzenia aplikacji domenowych. Twoje zespoły mogą używać znanego stosu technologii do tworzenia produktów danych. Mogą również preferować mieć własną instancję Spark lub silnik do przetwarzania strumieniowego. Na przykład duża domena, która obsługuje wiele produktów danych, może przetwarzać i obsługiwać produkty danych z własnego wystąpienia usługi Azure Synapse Analytics. Mniejsze organizacje i mniejsze domeny dużych organizacji mogą opracowywać i uruchamiać aplikacje danych na udostępnionej platformie, takiej jak centralnie zlokalizowana usługa Azure Data Factory, usługa Azure Synapse Analytics lub wystąpienie usługi Azure Databricks.
Upewnij się, że produkty danych mają typowe cechy opisane w tym artykule, że repozytorium pochodzenia odzwierciedla pochodzenie aplikacji danych oraz że zarządzasz implementacją i dostępem.
Na poniższym diagramie przedstawiono przykładowy układ logiczny aplikacji danych w domenie i strefie docelowej.