Technologie platformy Azure na potrzeby procesu nauki
W tej lekcji dowiesz się, jak zastosować wyniki kroku miary w cyklu życia innowacji. Dowiesz się również o znaczeniu demokratyzacji danych.
Demokratyzacja danych
Jak już wiesz w poprzednich lekcjach, możesz zbierać dane od klientów przy użyciu wielu źródeł. Źródła te obejmują mikro ankiety, dane użycia uzyskane przez aplikacja systemu Azure Szczegółowe informacje i flagi funkcji, które klienci mogą samodzielnie zdecydować o włączeniu lub wyłączeniu. Tym więcej posiadanych danych, tym lepiej podejmujesz decyzje, ale potrzebujesz sposobu na obsługę tego coraz większego przepływu danych.
W 2014 roku Satya Nadella mówiła o znaczeniu kultury danych w organizacji. Powiedział, że decyzje nie powinny być podejmowane na podstawie uczuć lub subiektywnych opinii, ale przy użyciu danych do ich weryfikacji. Powiedział również, że dane powinny być dostępne dla każdej osoby, która jej potrzebuje, i powinny być łatwo konwertowane na szczegółowe informacje umożliwiające podejmowanie działań, aby ułatwić podejmowanie decyzji opartych na danych.
Organizacja może podejmować wszechobecne decyzje dotyczące danych tylko wtedy, gdy te decyzje są oparte na solidnej, dostępnej platformie danych. Ten wysiłek obejmuje cztery obszary:
- Zbieranie danych: pierwszym krokiem do podejmowania decyzji opartych na danych jest zawsze posiadanie danych. Zbieranie danych może mieć wiele form: migrację z istniejących repozytoriów danych, generowanie danych ze źródeł, takich jak aplikacja systemu Azure Szczegółowe informacje, lub pozyskiwanie danych z innych źródeł.
- Udostępnianie danych: Zebrane dane muszą być dostępne dla wszystkich, którzy ich potrzebują, nie tylko dla ekspertów ds. danych. Wszystkie osoby w organizacji powinny mieć możliwość korzystania z danych w celu podejmowania decyzji.
- Scentralizowane dane: scentralizowane platformy danych mogą ułatwić udostępnianie danych i nadzór.
- Zarządzanie danymi: udostępnianie danych nie oznacza, że wszystkie dane muszą być dostępne dla wszystkich. Upewnij się, że wszystkie poufne dane są zabezpieczone, śledzone i zarządzane przed ich udostępnieniem.
Platforma danych Azure
Platforma Azure obejmuje cały cykl życia danych, który jest podstawowym elementem podejmowania decyzji opartych na danych i demokratyzacji danych. Od uproszczonych baz danych na żądanie po masowe magazyny danych lub elastyczne systemy NoSQL platforma danych Azure umożliwia pokrycie czterech obszarów działań związanych z danymi.
Zbieranie danych
Ekosystem danych platformy Azure obejmuje usługi i narzędzia do migrowania, pozyskiwania, przechowywania i analizowania danych. Na poniższej liście przedstawiono tylko kilka mechanizmów, których można użyć do przetwarzania danych i udostępnienia ich do późniejszego udostępniania w celu ułatwienia podejmowania decyzji opartych na danych:
- Analiza danych: Usługa Azure Synapse Analytics to usługa analizy przedsiębiorstwa, która przyspiesza analizowanie danych w magazynach danych i systemach danych big data. Usługa Azure Synapse Analytics łączy najlepsze z następujących elementów:
- Technologie SQL używane w magazynowaniu danych przedsiębiorstwa.
- Technologie platformy Spark używane na potrzeby danych big data.
- Potoki integracji danych i ETL (wyodrębnianie, przekształcanie, ładowanie) i ELT (wyodrębnianie, ładowanie, przekształcanie).
- Głęboka integracja z innymi usługi firmy Microsoft, takimi jak Power BI, Azure Cosmos DB i Azure Machine Edukacja.
- Migracja danych: dane mogą być już przechowywane w istniejących źródłach, ale należy je zmigrować na nowoczesną platformę, zanim będzie można je przekonwertować na szczegółowe informacje z możliwością działania. Usługa Azure Database Migration Service zawiera narzędzia ułatwiające migracje danych z systemów, takich jak SQL Server, PostgreSQL, Oracle i MongoDB.
- Przetwarzanie danych: platforma Azure obejmuje usługi do analizowania i przekształcania strumieni danych za pomocą usługi Azure Stream Analytics oraz uruchamiania procesów ETL na dużą skalę za pomocą usługi Azure Data Factory.
Udostępnianie danych
Microsoft Power BI to zestaw narzędzi, które konsolidują dane pochodzące z różnych źródeł w zintegrowane, interaktywne wizualizacje. Użytkownicy mogą po prostu zagłębić się w dane, korzystając z intuicyjnych kontrolek. Możliwości analizy są dostępne dla wszystkich w organizacji, a nie tylko dla specjalistów ds. danych.
Właściciele obszarów mogą tworzyć raporty i pulpity nawigacyjne zawierające odpowiednie informacje dotyczące określonych aspektów aplikacji. Po wprowadzeniu nowych funkcji w celu zweryfikowania hipotezy dane są łatwo dostępne do weryfikacji lub odrzucenia hipotezy na podstawie rzeczywistego użycia klienta.
Usługa Microsoft Power BI może pomóc w udostępnianiu danych z wielu perspektyw. Oto kilka przykładów:
- Udostępnianie danych współpracownikom i partnerom: pulpity nawigacyjne usługi Power BI upraszczają korzystanie z danych. Wizualizacje umożliwiają osobom, które nie są ekspertami w zakresie danych, przechodzenie do szczegółów danych bez konieczności znajomości jego podstawowej struktury.
- Szybkie generowanie szczegółowych informacji o danych: usługa Power BI może automatycznie generować wizualizacje zestawów danych przy użyciu funkcji Szybki wgląd w szczegółowe informacje. Pulpity nawigacyjne można szybko tworzyć i znajdować korelacje danych, które na początku mogły nie być oczywiste.
- Osadzanie raportów w witrynie internetowej lub portalu: usługa Power BI umożliwia nie tylko dostęp do wizualizacji w natywnym portalu usługi Power BI, ale także osadzanie raportów i pulpitów nawigacyjnych w innych aplikacjach internetowych. W ten sposób użytkownicy nie muszą pozostawiać znanych firmowych witryn internetowych, aby znaleźć dane potrzebne do procesu podejmowania decyzji.
Centralizacja danych
Głównym problemem centralizacji danych jest skalowanie na różnych poziomach. Na ryzyko nadmiernego uproszczenia możemy zmniejszyć je do 3 V danych big data:
- Wolumin: Usługa Azure Data Lake Storage Gen2 to ekonomiczna i skalowalna platforma Azure do magazynowania danych. W oparciu o ogromną skalowalność zapewnianą przez usługę Azure Storage usługa Azure Data Lake Storage została zaprojektowana pod kątem obsługi wielu petabajtów informacji przy jednoczesnym utrzymaniu setek gigabitów przepływności.
- Różnorodność: Ten termin często odnosi się do faktu, że dane nie zawsze są ustrukturyzowane. Dane mogą być też częściowo ustrukturyzowane, a nawet nieustrukturyzowane. Usługa Azure Synapse świeci w tym obszarze, ponieważ łączy najlepsze technologie SQL używane w magazynowaniu danych przedsiębiorstwa za pomocą platformy Spark, która jest często używana na potrzeby danych big data.
- Szybkość: Często występujący problem w starszych architekturach danych to współzależność między pojemnością magazynu, szybkością analizy i szybkością pozyskiwania danych. W rozwiązaniach danych platformy Azure organizacja może skalować różne wymiary platformy niezależnie, rozdzielając je. Dane mogą być pozyskiwane, przetwarzane i udostępniane za pośrednictwem potoków danych korzystających z wymaganych usług danych platformy Azure, jak pokazuje architektura analizy biznesowej przedsiębiorstwa.
Ład dotyczący danych
W dzisiejszym świecie dane reprezentują zarówno krytyczny zasób, jak i znaczną odpowiedzialność. Przechowywane dane często zawierają poufne informacje, które mogą spowodować szkody finansowe lub osobiste w przypadku wycieku lub nieodpowiedniego udostępnienia. Przechowywanie i przetwarzanie danych niejawnie oznacza, że organizacja przyjmuje tę odpowiedzialność. Przepisy prawne mogą spowodować kary dla organizacji, które źle potraktowały dane osobowe lub poufne.
W konsekwencji ład danych ma kluczowe znaczenie dla każdej organizacji, która ma cel demokratyzacji danych. Pierwszym krokiem w kierunku ładu danych jest klasyfikowanie danych, które muszą być traktowane w określony sposób. Na przykład firma Microsoft używa tych kategorii danych wewnętrznie do klasyfikacji danych:
- Inne niż biznesowe: dane z twojego życia osobistego, które nie należą do firmy Microsoft.
- Publiczne: dane biznesowe, które są swobodnie dostępne i zatwierdzone do użytku publicznego.
- Ogólne: dane biznesowe, które nie są przeznaczone dla odbiorców publicznych.
- Poufne: dane biznesowe, które mogą wyrządzić szkodę firmie Microsoft w przypadku nadmiernego udostępniania.
- Wysoce poufne: dane biznesowe, które mogłyby spowodować rozległe szkody dla firmy Microsoft w przypadku nadmiernego udostępniania.
Następnym krokiem po klasyfikacji danych jest zapewnienie, że każda kategoria danych jest chroniona przed nieautoryzowanym dostępem. pomoc techniczna platformy Azure te technologie, które wymuszają poufność:
- Szyfrowanie danych magazynowanych: wszystkie dane platformy Azure są szyfrowane podczas przechowywania w centrach danych firmy Microsoft. Niektóre usługi platformy Azure oferują określone funkcje szyfrowania, takie jak przezroczyste szyfrowanie danych w usługach Azure Synapse i Azure SQL Database.
- Szyfrowanie danych w locie: wszystkie usługi danych platformy Azure szyfrują dane przy użyciu protokołu TLS/SSL przed wysłaniem ich za pośrednictwem sieci. Niektóre usługi, takie jak Azure Storage, mogą opcjonalnie zezwalać na niezaszyfrowany ruch. Organizacje powinny wyłączyć wszelką niezaszyfrowaną komunikację dla dowolnego typu poufnych danych.
- Kontrola dostępu do danych: platforma Azure oferuje zaawansowane mechanizmy uwierzytelniania i autoryzacji zarówno na potrzeby dostępu do platformy Azure, jak i dostępu do samych danych. Kontrola dostępu oparta na rolach platformy Azure, dostęp warunkowy i usługa Privileged Identity Management to trzy przykłady podstawowych usług, które mogą pomóc w zapewnieniu, że tylko autoryzowane osoby mają dostęp do poufnych informacji.
- Inspekcja danych: Wiele standardów zgodności z przepisami wymaga dowodów mechanizmów ochrony danych, dokumentując, kto wykonał pewne operacje i uzyskiwał dostęp do określonych danych. Zgodnie z opisem w artykule Auditing for Azure SQL Database and Azure Synapse Analytics (Inspekcja dla usług Azure SQL Database i Azure Synapse Analytics) inspekcja danych na platformie Azure obejmuje trzy aspekty inspekcji:
- Zachowaj dziennik inspekcji wybranych zdarzeń, w którym można zdefiniować kategorie akcji danych do inspekcji.
- Raport dotyczący aktywności bazy danych, opcjonalnie ze wstępnie skonfigurowanymi raportami i pulpitami nawigacyjnymi, aby szybko rozpocząć pracę.
- Analizowanie raportów w celu wykrywania podejrzanych zdarzeń, nietypowych działań i trendów
Nastawienie na wzrost
Faza nauki czasami dostarcza złą wiadomość. Hipotezy, że myślałeś, że masz rację, może okazać się błędne. Bycie otwartym na alternatywne pomysły jest kluczem do bezproblemowego przepływu procesu innowacji. Być może cała hipoteza była błędna, a może problem był tylko sposobem, w jaki prototyp został opracowany.
W każdym razie wnioski powinny być zawsze obsługiwane przy użyciu danych. Zespół powinien przejść do formułowania następnej hipotezy, być może jakiejś poprawki lub iteracji początkowej.
Istniejące dane mogą nie pozwolić na jednoznaczne stwierdzenie, czy hipoteza była prawidłowa, czy zła. W takim przypadku zestaw danych, który pomaga w procesie podejmowania decyzji, powinien zostać rozszerzony. Wprowadzenie nowych punktów telemetrycznych w aplikacji lub ustalenie nowych sposobów uzyskiwania informacji o środowisku klienta.
Na tym etapie podstawowy sposób myślenia o wzroście. Pomyśl o hipotezach, które okazały się błędne lub częściowo błędne jako możliwości uczenia się. Organizacje nie powinny tracić czasu na innowacje, które nie generują oczekiwanych wyników biznesowych.
Gdzie spojrzeć dalej
W dalszej części omawiamy wiele pojęć w tej lekcji w dokumentacji przewodnika Cloud Adoption Framework na temat demokratyzacji danych.