Wiele stref danych na potrzeby analizy w skali chmury na platformie Azure
Ta architektura referencyjna dotyczy organizacji, które wdrożyły podstawową wersję analizy w skali chmury i są teraz gotowe do hostowania nowych jednostek biznesowych w celu ułatwienia modernizacji operacji analitycznych. W tym bardziej złożonym scenariuszu jest używanych wiele stref docelowych, aplikacji danych i produktów danych.
Apache Hive i logo Hive są zastrzeżonymi znakami towarowymi lub znakami towarowymi fundacji Apache Software Foundation w Stanach Zjednoczonych i/lub innych krajach. Użycie tych znaków nie oznacza autoryzacji przez Fundację Apache Software.
Sformułowanie problemu
Firma Relecloud, fikcyjna firma w tym przykładzie, jest dostawcą chmury prywatnej, który oferuje udostępnione zasoby obliczeniowe i magazynowe organizacjom globalnym. Mimo że firma Relecloud udostępnia zasoby obliczeniowe, nie chce ograniczać platformy własnymi operacjami wewnętrznymi. W związku z tym firma korzysta z platformy Microsoft Azure na potrzeby wewnętrznych obliczeń.
Analitycy danych w grupie operacyjnej używają danych telemetrycznych z usług w chmurze, aby zrozumieć, jak klienci korzystają z platformy. Oddzielny zespół analityków w grupie rozliczeniowej analizuje dane fakturowe, aby uzyskać informacje o tym, które usługi generują największe przychody.
W zeszłym kwartale zespół operacyjny zmodernizuje swoją platformę analiz, migrując ją na platformę Azure. Jednym z celów wdrażania analizy w skali chmury było zmaksymalizowanie potencjału skalowania platformy i dodawania nowych obciążeń organizacyjnych.
Obecnie dział rozliczeń przerosło możliwości swojego bieżącego rozwiązania analitycznego. Ilość faktur do przeanalizowania jest zbyt duża dla serwera lokalnego. Zespół decyduje się postępować zgodnie z liderem grupy operacyjnej i zmodernizować platformę analizy danych na platformie Azure.
Analitycy w grupie rozliczeń mają inne umiejętności niż analitycy w grupie operacyjnej. Analitycy rozliczeń nie chcą być zmuszani do używania tych samych narzędzi co dział operacyjny. Grupa rozliczeń znajduje się w innej części organizacji i chce mieć elastyczność implementacji zasad i procedur spełniających ich potrzeby.
Rozwiązanie architektoniczne
Relecloud skaluje swoją platformę analityczną, dodając nową strefę lądowania dla grupy rozliczeniowej. Ta strefa docelowa udostępnia wirtualny obszar roboczy dla grupy rozliczeniowej w celu zaimplementowania rozwiązań analitycznych spełniających ich potrzeby biznesowe. Mając strefę docelową oddzieloną od innych zasobów organizacji, grupa rozliczeń może zaimplementować własne zasady dostępu i uwzględnić koszty swoich usług.
Poniższy diagram nie reprezentuje wszystkich usług platformy Azure. Diagram jest uproszczony, aby wyróżnić podstawowe pojęcia dotyczące organizowania zasobów w architekturze.
Strefa docelowa zarządzania danymi
Kluczowym wymaganiem dla implementacji analizy w skali chmury jest strefa docelowa zarządzania danymi. Ta subskrypcja zawiera zasoby współużytkowane we wszystkich strefach docelowych, w tym współużytkowane składniki sieciowe, takie jak zapora lub prywatne strefy DNS. Obejmuje również zasoby na potrzeby zarządzania danymi i chmurą. Usługi Microsoft Purview i Databricks Unity Catalog zostały wdrożone na poziomie dzierżawy.
Firma Relecloud utworzyła strefę docelową zarządzania danymi podczas wdrażania rozwiązania do analizy danych dla grupy operacji. Gdy grupa rozliczeń dołączy do platformy, użyje tej samej strefy docelowej zarządzania danymi, aby udostępnić wspólne zasoby grupie operacji.
Strefa docelowa danych operacyjnych
Grupa operacji ma następujące rozwiązania w strefie docelowej danych.
Aplikacje danych operacji
Zespół utworzył aplikację danych dostosowaną do źródła, która używa zadań platformy Apache Spark w usłudze Azure Databricks do pozyskiwania danych telemetrycznych usługi i przechowywania ich na koncie usługi Azure Data Lake Storage.
Ten proces kopiuje dane as-is z systemu źródłowego, ale nie przekształca ich. Analitycy mogą pracować z skopiowanymi danymi na platformie analitycznej bez przeciążenia systemu źródłowego. Zamiast tworzyć dedykowane wdrożenie dla tej aplikacji danych, zespół operacyjny używa obszaru roboczego Databricks we wspólnej grupie zasobów pozyskiwanie & przetwarzanie.
Klienci usługi Relecloud mogą tworzyć konta w chmurze, aby zarządzać zasobami i rozliczeniami w chmurach prywatnych. Każdy klient może mieć wiele kont. Zespół analityczny utworzył aplikację danych w celu zaimportowania danych konta w chmurze. Ponieważ ilość i częstotliwość danych są znacznie niższe niż w przypadku danych telemetrycznych, zespół nie musi używać zadań platformy Spark. Zamiast tego utworzyli potoki usługi Azure Data Factory w celu skopiowania danych.
Usługa Azure Database for MySQL działa jako magazyn metadanych Hive, a usługa Azure SQL Database jest magazynem metadanych usługi Azure Data Factory.
Produkty danych operacji
Analitycy firmy Relecloud uzyskują wartość z danych w aplikacjach danych dostosowanych do źródła, tworząc nowe aplikacje danych dostosowane do konsumentów. Jedną z tych aplikacji danych dostosowanych do konsumentów jest model rekomendujący usługi w chmurze. Analitycy danych relecloud wykorzystali usługę Azure Machine Learning do utworzenia modelu, który analizuje usługi używane przez konto w chmurze i sugeruje powiązane usługi, które mogą być przydatne. Zespół wdraża ten model w klastrze usługi Azure Kubernetes Service (AKS) działającym w strefie docelowej i zarządzanym przez usługę Azure Machine Learning. Aplikacje działające poza analizą w skali chmury mogą wywoływać punkt końcowy usługi AKS, aby uzyskać zalecenia.
Po utworzeniu strefy docelowej przez zespół ds. rozliczeń zespół operacyjny tworzy nowy produkt danych, którego żąda zespół zarządzający. Zespół zarządzający chce wiedzieć, ile przychodów generuje aplikacja rekomendująca usługi w chmurze na podstawie danych. Nowy produkt danych rekomendacji przychodów używa usługi Azure Synapse Analytics do łączenia danych z rekomendera usług w chmurze i przychodów według usługi w nowy produkt danych. Analitycy biznesowi mogą łączyć się z usługą Azure Synapse za pomocą usługi Microsoft Power BI, aby znaleźć i zgłosić szczegółowe informacje z tego nowego produktu danych.
Strefa docelowa danych rozliczeniowych
Grupa rozliczeniowa używała lokalnego systemu do obsługi analityki, ale w miarę wzrostu ilości danych i gdy firma coraz bardziej polegała na ich pracy, system nie nadążał. Grupa modernizuje swoją platformę, przechodząc do chmury.
Grupa rozliczeń nie udostępnia strefy docelowej grupie operacji, ale dostaje własną strefę docelową, w której mają swobodę tworzenia platformy, która najlepiej odpowiada ich potrzebom. Nowa strefa lądowania jest połączona z obszarem zarządzania danymi i wszystkimi innymi strefami lądowania danych za pomocą połączenia równorzędnego sieci wirtualnych. Ten mechanizm umożliwia bezpieczne udostępnianie danych za pośrednictwem sieci wewnętrznej platformy Azure.
Aplikacje danych rozliczeniowych
Aby przenieść dane z istniejących systemów do platformy analitycznej, zespół ds. rozliczeń tworzy dwie aplikacje do przetwarzania danych. Pierwsza aplikacja pozyska dane klienta, w tym pełną listę klientów i wszystkie powiązane dane, takie jak adresy klientów, lokalizacje i przypisania sprzedawcy. Druga aplikacja importuje historię faktur firmy, która obejmuje wszystkie opłaty rozliczeniowe dla klientów i powiązane dane płatności.
Obie te aplikacje są obsługiwane przez potoki w udostępnionym obszarze roboczym usługi Azure Synapse. Każda aplikacja ma dedykowaną pulę obliczeniową, która ułatwia ewidencjonowanie kosztów i granice zabezpieczeń. Ponieważ aplikacje można w pełni zaimplementować z zasobami udostępnionymi, grupa rozliczeń nie musi tworzyć wdrożenia dla tych aplikacji danych.
Produkt danych rozliczeniowych
Analitycy rozliczeń tworzą nowy produkt danych o nazwie Revenue by service, który analizuje, ile przychodów generuje każda usługa w chmurze dla usługi Relecloud. Ten produkt opiera się na danych w Faktury przetwarzania. Produkt łączy się również ze strefą docelową operacji i odczytuje dane użycia usługi. Podobnie jak aplikacje danych, produkt danych opiera się również na udostępnionym obszarze roboczym usługi Azure Synapse.
Następne kroki
Przejdź do scenariusza Lamna Healthcare dla bezpiecznej analizy w skali chmury w usługach Azure.
Aby uzyskać więcej informacji, zobacz następujące artykuły: