Wprowadzenie do analizy w skali chmury
Analiza w skali chmury opiera się na strefach docelowych platformy Azure w celu ułatwienia wdrażania i zapewniania ładu. Głównym celem strefy docelowej platformy Azure jest zapewnienie, że gdy aplikacja lub obciążenie ląduje na platformie Azure, wymagana infrastruktura jest już włączona. Przed wdrożeniem strefy docelowej analizy w skali chmury należy już pracować za pomocą struktury wdrażania chmury w celu wdrożenia architektury strefy docelowej platformy Azure ze strefami docelowymi platformy.
W przypadku obciążeń suwerennych firma Microsoft ma suwerennej strefy lądowej (SLZ), która jest wariantem strefy lądowej Azure w skali przedsiębiorstwa przeznaczonej dla organizacji wymagających zaawansowanych kontroli suwerennych. Analizę w skali chmury można wdrożyć w ramach tego wariantu strefy docelowej platformy Azure.
Analiza w skali chmury obejmuje wdrażanie w strefach docelowych aplikacji. Te strefy zazwyczaj znajdują się w grupie zarządzania strefą docelową, a zasady są filtrowane w dół do przykładowych szablonów udostępnianych przez firmę Microsoft.
Firma Microsoft udostępnia przykładowe szablony umożliwiające rozpoczęcie pracy, których można użyć w przypadku wdrożeń usługi Data Lakehouse i siatki danych.
Ocena analizy w skali chmury
Często firma szuka przejrzystych lub nakazowych wskazówek, zanim zacznie rzeźbić szczegóły techniczne dla konkretnego przypadku użycia, projektu lub kompleksowej analizy w skali chmury. Jako firma formułuje ogólną strategię danych, może być trudne, aby upewnić się, że uwzględnia wszystkie strategiczne i wymagane zasady w zakresie bieżącego użycia.
Aby przyspieszyć dostarczanie tej kompleksowej podróży do szczegółowych informacji, mając na uwadze te wyzwania, firma Microsoft opracowała nakazowy scenariusz analizy w skali chmury. Jest on zgodny z kluczowymi tematami omówionymi w temacie Opracowywanie planu analizy w skali chmury.
Analiza w skali chmury opiera się na przewodniku Microsoft Cloud Adoption Framework, stosując obiektyw platformy Microsoft Azure Well-Architected Framework. Przewodnik Microsoft Cloud Adoption Framework zawiera normatywne wskazówki i najlepsze rozwiązania dotyczące modeli operacyjnych w chmurze, architektury referencyjnej i szablonów platform. Jest on oparty na rzeczywistych naukach z niektórych z naszych najtrudniejszych, wyrafinowanych i złożonych środowisk.
Analiza w skali chmury umożliwia klientom tworzenie i operacjonalizacja stref docelowych na potrzeby hostowania i uruchamiania obciążeń analitycznych. Strefy docelowe są oparte na podstawach zabezpieczeń, ładu i zgodności. Są one skalowalne i modułowe, a jednocześnie wspierają autonomię i innowacje.
Historia architektury danych
Pod koniec lat 80. wprowadzono magazyn danych 1. generacji, który łączył różne źródła danych z całego przedsiębiorstwa. Pod koniec 2000 roku przyszedł gen2, wraz z wprowadzeniem ekosystemów danych big data, takich jak Hadoop i data lake. W połowie lat 2010-tych wprowadzono platformę danych w chmurze. Była podobna do poprzednich generacji, ale wraz z wprowadzeniem pozyskiwania danych przesyłanych strumieniowo, takich jak architektury kappa lub lambda. Na początku 2020 r. wprowadzono pojęcia dotyczące magazynu typu data lakehouse, siatki danych, sieci szkieletowej danych i wzorców operacyjnych skoncentrowanych na danych.
Pomimo tych postępów wiele organizacji nadal korzysta ze scentralizowanej platformy monolitycznej, generacji 1. Ten system działa dobrze, aż do punktu. Jednak wąskie gardła mogą wystąpić z powodu współzależnych procesów, ściśle powiązanych składników i hiperspecjalizowanych zespołów. Zadania wyodrębniania, przekształcania i ładowania (ETL) mogą stać się widoczne i spowalniać osie czasu dostarczania.
Hurtownia danych i data lake są nadal cenne i odgrywają ważną rolę w ogólnej architekturze. W poniższej dokumentacji wyróżniono niektóre wyzwania, które mogą wystąpić podczas używania tych tradycyjnych praktyk do skalowania. Te wyzwania są szczególnie istotne w złożonej organizacji, w której zmieniają się źródła danych, wymagania, zespoły i dane wyjściowe.
Przechodzenie do analizy w skali chmury
Bieżąca architektura danych analitycznych i model operacyjny mogą obejmować magazyn danych, magazyn danych typu data lake i struktury typu data lakehouse, sieć szkieletową danych lub siatkę danych.
Każdy model danych ma własne zalety i wyzwania. Analiza w skali chmury ułatwia pracę z bieżącej konfiguracji, aby zmienić podejście do zarządzania danymi, dzięki czemu może rozwijać się wraz z infrastrukturą.
Możesz obsługiwać dowolną platformę danych i scenariusz, aby utworzyć kompleksową strukturę analizy w skali chmury, która służy jako podstawa i umożliwia skalowanie.
Nowoczesna platforma danych i żądane wyniki
Jednym z pierwszych obszarów zainteresowania jest aktywowanie strategii danych w celu sprostania wyzwaniom dzięki iteracyjnemu tworzeniu skalowalnej i elastycznej nowoczesnej platformy danych.
Zamiast być przytłoczony biletami usług i stara się sprostać konkurencyjnym potrzebom biznesowym, nowoczesna platforma danych umożliwia odgrywanie bardziej konsultacyjnej roli, zwalniając czas, aby skupić się na bardziej cennej pracy. Udostępniasz linie biznesowe z platformą i systemami do samoobsługowych potrzeb związanych z danymi i analizą.
Zalecane obszary początkowego fokusu to:
- Poprawianie jakości danych, ułatwianie zaufania i uzyskiwanie szczegółowych informacji w celu podejmowania decyzji biznesowych opartych na danych.
- Bezproblemowo wdrażaj całościowe dane, zarządzanie i analizy na dużą skalę w całej organizacji.
- Ustanów niezawodny nadzór nad danymi, który umożliwia samoobsługę i elastyczność dla linii biznesowych.
- Zachowaj zgodność z zabezpieczeniami i przepisami w w pełni zintegrowanym środowisku.
- Szybko twórz podstawy do zaawansowanych funkcji analitycznych, korzystając z gotowego rozwiązania dobrze zaprojektowanego, powtarzalnego, modułowego wzorców.
Zarządzanie infrastrukturą analiz
Drugą kwestią jest ustalenie, w jaki sposób organizacja implementuje nadzór nad danymi.
Ład danych to sposób zapewniania, że dane używane w operacjach biznesowych, raportach i analizie są wykrywalne, dokładne, zaufane i mogą być chronione.
W przypadku wielu firm oczekuje się, że dane i sztuczna inteligencja będą napędzać przewagę konkurencyjną. W rezultacie kierownictwo chętnie sponsoruje inicjatywy sztucznej inteligencji w ich determinacji, aby stać się oparte na danych. Jednak aby sztuczna inteligencja stała się skuteczna, dane używane przez nią muszą być zaufane. W przeciwnym razie można naruszyć dokładność decyzji, decyzje mogą być opóźnione lub działania mogą zostać pominięte, co może mieć wpływ na linię dolną. Firmy nie chcą, aby jakość ich danych była typu: "śmieci na wejściu, śmieci na wyjściu". Na początku może się wydawać, że poprawa jakości danych jest prosta, dopóki nie przyjrzysz się wpływowi, jaki transformacja cyfrowa miała na dane.
Dzięki rozproszeniu danych w hybrydowym wielochmurowym i rozproszonym środowisku danych organizacje mają trudności z znalezieniem miejsca, w którym znajdują się ich dane, i do zarządzania nim. Dane ungoverned mogą mieć znaczący wpływ na firmę. Niska jakość danych ma wpływ na operacje biznesowe, ponieważ błędy danych powodują błędy procesu i opóźnienia. Niska jakość danych wpływa również na podejmowanie decyzji biznesowych i możliwość zachowania zgodności. Zapewnienie jakości danych w źródle jest często preferowane, ponieważ rozwiązywanie problemów z jakością w systemie analitycznym może być bardziej złożone i kosztowne niż stosowanie reguł jakości danych na wczesnym etapie pozyskiwania. Aby ułatwić śledzenie działań związanych z danymi i zarządzanie nimi, zarządzanie danymi musi obejmować:
- Odnajdywanie danych
- Jakość danych
- Tworzenie zasad
- Udostępnianie danych
- Metadane
Zabezpieczanie majątku analitycznego
Innym głównym czynnikiem ładu w zakresie danych jest ochrona danych. Ochrona danych może pomóc w przestrzeganiu przepisów regulacyjnych i zapobiec naruszeniom zabezpieczeń danych. Prywatność danych i rosnąca liczba naruszeń danych sprawiły, że ochrona danych miała najwyższy priorytet w sali konferencyjnej. Naruszenia te podkreślają ryzyko związane z poufnymi danymi, takimi jak dane osobowe klientów. Konsekwencje naruszenia prywatności danych lub naruszenia zabezpieczeń danych są wiele i mogą obejmować:
- Utrata lub poważne uszkodzenie obrazu marki
- Utrata zaufania klientów i udziału w rynku
- Spadek ceny akcji, który wpływa na zwrot uczestników projektu z inwestycji i wynagrodzenia wykonawczego
- Poważne kary finansowe spowodowane niepowodzeniem inspekcji lub zgodności
- Działania prawne
- Efekt domina naruszenia, na przykład, klienci mogą padć ofiarą kradzieży tożsamości
W większości przypadków publicznie cytowane firmy muszą zadeklarować te naruszenia. W przypadku wystąpienia naruszeń klienci są bardziej skłonni do winy firmy, a nie hakera. Klient może bojkotować firmę przez kilka miesięcy lub nigdy nie powrócić.
Brak zgodności z przepisami prawnymi dotyczącymi prywatności danych może spowodować znaczne kary finansowe. Zarządzanie danymi pomaga uniknąć takich zagrożeń.
Model operacyjny i korzyści
Wdrożenie nowoczesnej platformy strategii danych nie tylko zmienia technologię używaną przez organizację, ale także sposób jej działania.
Analiza w skali chmury zawiera zalecane wskazówki ułatwiające rozważenie sposobu organizowania i umiejętności pracowników i zespołów, w tym:
- Definicje persona, rola i odpowiedzialność
- Sugerowane struktury dla zespołów zwinnych, pionowych i międzydomenowych
- Zasoby umiejętności, w tym dane platformy Azure i certyfikaty sztucznej inteligencji za pośrednictwem usługi Microsoft Learn
Ważne jest również zaangażowanie użytkowników końcowych w całym procesie modernizacji i dalsze rozwijanie platformy i dołączanie nowych przypadków użycia.
Architektury
Strefy docelowe platformy Azure reprezentują strategiczną ścieżkę projektową i docelowy stan techniczny środowiska. Umożliwiają one łatwe wdrażanie i ład w celu zapewnienia większej elastyczności i zgodności. Strefy docelowe platformy Azure zapewniają również, że gdy w środowisku znajduje się nowa aplikacja lub obciążenie, właściwa infrastruktura jest już włączona. Zarządzanie danymi w platformie Azure i strefy lądowania danych, zintegrowane z rozwiązaniami Microsoft w zakresie zarządzania ładem i analizy oprogramowania jako usługi, są zaprojektowane z uwzględnieniem tych samych podstawowych zasad i, w połączeniu z innymi elementami analiz w skali chmury, mogą pomóc w umożliwieniu:
- Samoobsługa
- Skalowalność
- Szybki start
- Zabezpieczenia
- Prywatność
- Optymalizacja operacji
Strefa docelowa zarządzania danymi
Strefa docelowa zarządzania danymi stanowi podstawę scentralizowanego zarządzania danymi i zarządzania nimi w całej organizacji. Ułatwia również komunikację z pozyskiwaniem danych z całego majątku cyfrowego, w tym z wieloma chmurami i infrastrukturą hybrydową.
Strefa docelowa zarządzania danymi obsługuje wiele innych funkcji zarządzania danymi i zarządzania nimi, takich jak:
- Katalog danych
- Zarządzanie jakością danych
- Klasyfikacja danych
- Pochodzenie danych
- Repozytorium modelowania danych
- Wykaz interfejsów API
- Udostępnianie danych i kontrakty
Napiwek
Jeśli używasz rozwiązań partnerskich na potrzeby wykazu danych, zarządzania jakością danych lub możliwości pochodzenia danych, powinny one znajdować się w strefie docelowej zarządzania danymi. Alternatywnie usługę Microsoft Purview można wdrożyć jako rozwiązanie typu oprogramowanie jako usługa, łącząc się zarówno ze strefą docelową zarządzania danymi, jak i strefami docelowymi danych.
Strefy docelowe danych
Strefy lądowania danych przybliżają dane użytkownikom i umożliwiają samoobsługę przy zachowaniu wspólnego zarządzania i nadzoru za pośrednictwem połączenia ze strefą lądowania zarządzania danymi.
Hostują standardowe usługi, takie jak sieć, monitorowanie, pozyskiwanie i przetwarzanie danych, a także dostosowania, takie jak produkty danych i wizualizacje.
Strefy docelowe danych są kluczem do umożliwienia skalowalności platformy. W zależności od rozmiaru i potrzeb organizacji można zacząć od jednej lub wielu stref docelowych.
Podczas podejmowania decyzji między jedną i wieloma strefami docelowymi należy wziąć pod uwagę wymagania dotyczące zależności regionalnych i rezydencji danych. Czy na przykład istnieją lokalne przepisy lub przepisy, które wymagają, aby dane były w określonej lokalizacji?
Niezależnie od początkowej decyzji można dodawać lub usuwać strefy docelowe danych zgodnie z potrzebami. Jeśli zaczynasz od jednej strefy docelowej, zalecamy rozszerzenie na wiele stref docelowych, aby uniknąć przyszłych potrzeb związanych z migracją.
Uwaga
W przypadku wdrożenia Microsoft Fabric, strefa docelowa danych hostuje rozwiązania inne niż oprogramowanie jako usługa, takie jak data lake i inne usługi danych Azure.
Aby uzyskać więcej informacji na temat stref docelowych, zobacz Strefy docelowe platformy Azure na potrzeby analizy w skali chmury.
Podsumowanie
Po zapoznaniu się z tym zestawem dokumentacji, w szczególności sekcjach dotyczących ładu, zabezpieczeń, obsługi i najlepszych rozwiązań zalecamy skonfigurowanie środowiska weryfikacji koncepcji przy użyciu szablonów wdrażania. Te szablony, wraz ze wskazówkami dotyczącymi architektury, zapewniają praktyczne doświadczenie z niektórymi technologiami platformy Azure i oprogramowania jako usługi firmy Microsoft. Aby uzyskać więcej informacji, zobacz listę kontrolną Wprowadzenie.