Rozwiązanie opisane w tym artykule łączy szereg usług platformy Azure, które będą pozyskiwać, przechowywać, przetwarzać, wzbogacać i udostępniać dane oraz szczegółowe informacje z różnych źródeł (ustrukturyzowane, częściowo ustrukturyzowane, nieustrukturyzowane i przesyłane strumieniowo).
Architektura
Pobierz plik programu Visio z tą architekturą.
Uwaga
- Usługi objęte tą architekturą są tylko podzbiorem znacznie większej rodziny usług platformy Azure. Podobne wyniki można osiągnąć przy użyciu innych usług lub funkcji, które nie są objęte tym projektem.
- Konkretne wymagania biznesowe dotyczące przypadku użycia analizy mogą wymagać użycia różnych usług lub funkcji, które nie są brane pod uwagę w tym projekcie.
Przepływ danych
Przypadki użycia analizy omówione w architekturze są ilustrowane przez różne źródła danych po lewej stronie diagramu. Dane przepływają przez rozwiązanie z dołu w następujący sposób:
Uwaga
W poniższych sekcjach usługa Azure Data Lake jest używana jako strona główna danych na różnych etapach cyklu życia danych. Usługa Azure Data Lake jest zorganizowana według różnych warstw i kontenerów w następujący sposób:
- Warstwa Nieprzetworzona to obszar docelowy danych przychodzących z systemów źródłowych. Jak wskazuje nazwa, dane w tej warstwie są w postaci nieprzetworzonej, niefiltrowanej i nieoczyszczonej.
- W następnym etapie cyklu życia dane są przesyłane do warstwy Wzbogacone, w której dane są czyszczone, filtrowane i ewentualnie przekształcane.
- Następnie dane są przesyłane do warstwy Nadzorowane, w której przechowywane są dane gotowe do użycia przez użytkownika.
Zapoznaj się z dokumentacją stref i kontenerów usługi Data Lake, aby zapoznać się z pełnym przeglądem warstw i kontenerów usługi Azure Data Lake oraz ich zastosowań.
Usługi danych platformy Azure, natywny dla chmury protokół HTAP z usługami Azure Cosmos DB i Dataverse
Przetwarzaj
Usługa Azure Synapse Link dla usług Azure Cosmos DB i Azure Synapse Link dla usługi Dataverse umożliwia uruchamianie analizy niemal w czasie rzeczywistym na danych aplikacji operacyjnych i biznesowych przy użyciu aparatów analitycznych dostępnych w obszarze roboczym usługi Azure Synapse: bezserwerowych i pul platformy Spark.
W przypadku korzystania z usługi Azure Synapse Link dla usługi Azure Cosmos DB użyj zapytania bezserwerowego SQL lub notesu puli platformy Spark. Możesz uzyskać dostęp do magazynu analitycznego usługi Azure Cosmos DB, a następnie połączyć zestawy danych z danych operacyjnych niemal w czasie rzeczywistym z danymi z usługi Data Lake lub z magazynu danych.
W przypadku korzystania z usługi Azure Synapse Link dla usługi Dataverse użyj zapytania bezserwerowego SQL lub notesu puli platformy Spark. Możesz uzyskać dostęp do wybranych tabel usługi Dataverse, a następnie połączyć zestawy danych z danych aplikacji biznesowych niemal w czasie rzeczywistym z danymi z usługi Data Lake lub z magazynu danych.
Przechowuj
- Wynikowe zestawy danych z zapytań bezserwerowych SQL mogą być utrwalane w usłudze Data Lake. Jeśli używasz notesów platformy Spark, wynikowe zestawy danych mogą być utrwalane w magazynie data lake lub data warehouse (pula SQL).
Służyć
Załaduj odpowiednie dane z puli SQL usługi Azure Synapse lub usługi Data Lake do zestawów danych usługi Power BI w celu wizualizacji i eksploracji danych. Modele usługi Power BI implementują model semantyczny, aby uprościć analizę danych biznesowych i relacji. Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.
Relacyjne bazy danych
Pozyskiwanie
- Potoki usługi Azure Synapse umożliwiają ściąganie danych z wielu różnych baz danych, zarówno lokalnych, jak i w chmurze. Potoki mogą być wyzwalane na podstawie wstępnie zdefiniowanego harmonogramu w odpowiedzi na zdarzenie lub mogą być jawnie wywoływane za pośrednictwem interfejsów API REST.
Przechowuj
W warstwie nieprzetworzonej usługi Data Lake należy zorganizować magazyn data lake zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów używanych w poszczególnych warstwach i formatach plików używanych w poszczególnych scenariuszach analitycznych.
Z potoku usługi Azure Synapse użyj działania Copy data (Kopiowanie danych), aby przygotować dane skopiowane z relacyjnych baz danych do pierwotnej warstwy usługi Azure Data Lake Store Gen 2 data lake. Dane można zapisać w formacie tekstowym rozdzielonym lub skompresowanym jako pliki Parquet.
Przetwarzaj
Użyj przepływów danych, zapytań bezserwerowych SQL lub notesów platformy Spark, aby weryfikować, przekształcać i przenosić zestawy danych z warstwy Raw za pośrednictwem warstwy Wzbogacone i do warstwy Nadzorowane w usłudze Data Lake.
- W ramach przekształceń danych można wywoływać modele trenowania maszynowego z pul SQL przy użyciu standardowych notesów T-SQL lub Spark. Te modele uczenia maszynowego mogą służyć do wzbogacania zestawów danych i generowania dalszych analiz biznesowych. Te modele uczenia maszynowego mogą być używane z usług Azure Cognitive Services lub niestandardowych modeli uczenia maszynowego z usługi Azure ML.
Służyć
Końcowy zestaw danych można obsłużyć bezpośrednio z warstwy data lake Curated lub użyć działania Kopiowania danych, aby pozyskać końcowy zestaw danych do tabel puli SQL przy użyciu polecenia COPY na potrzeby szybkiego pozyskiwania.
Załaduj odpowiednie dane z puli SQL usługi Azure Synapse lub usługi Data Lake do zestawów danych usługi Power BI na potrzeby wizualizacji danych. Modele usługi Power BI implementują model semantyczny, aby uprościć analizę danych biznesowych i relacji. Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.
Częściowo ustrukturyzowane źródła danych
Pozyskiwanie
Potoki usługi Azure Synapse umożliwiają ściąganie danych z różnych częściowo ustrukturyzowanych źródeł danych, zarówno lokalnych, jak i w chmurze. Na przykład:
- Pozyskiwanie danych ze źródeł opartych na plikach zawierających pliki CSV lub JSON.
- Połącz się z bazami danych No-SQL, takimi jak Azure Cosmos DB lub MongoDB.
- Wywoływanie interfejsów API REST udostępnianych przez aplikacje SaaS, które będą działać jako źródło danych dla potoku.
Przechowuj
W warstwie nieprzetworzonej usługi Data Lake należy zorganizować magazyn data lake zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów używanych w poszczególnych warstwach i formatach plików używanych w poszczególnych scenariuszach analitycznych.
Z potoku usługi Azure Synapse użyj działania Copy data (Kopiowanie danych), aby przygotować dane skopiowane ze źródeł danych częściowo ustrukturyzowanych do pierwotnej warstwy usługi Azure Data Lake Store Gen 2 data lake. Zapisz dane, aby zachować oryginalny format uzyskany ze źródeł danych.
Przetwarzaj
W przypadku potoków wsadowych/mikrosadowych użyj przepływów danych, zapytań bezserwerowych SQL lub notesów platformy Spark, aby weryfikować, przekształcać i przenosić zestawy danych do warstwy Nadzorowane w usłudze Data Lake. Zapytania bezserwerowe SQL uwidaczniają bazowe pliki CSV, Parquet lub JSON jako tabele zewnętrzne, dzięki czemu mogą być odpytywane przy użyciu języka T-SQL.
- W ramach przekształceń danych można wywoływać modele uczenia maszynowego z pul SQL przy użyciu standardowych notesów języka T-SQL lub Spark. Te modele uczenia maszynowego mogą służyć do wzbogacania zestawów danych i generowania dalszych analiz biznesowych. Te modele uczenia maszynowego mogą być używane z usług Azure Cognitive Services lub niestandardowych modeli uczenia maszynowego z usługi Azure ML.
W przypadku scenariuszy analizy danych telemetrycznych i szeregów czasowych niemal w czasie rzeczywistym użyj pul eksploratora danych, aby łatwo pozyskiwać, konsolidować i korelować dzienniki oraz dane zdarzeń IoT w wielu źródłach danych. Za pomocą pul eksploratora danych można używać zapytań Kusto (KQL) do przeprowadzania analizy szeregów czasowych, klastrowania geoprzestrzennych i wzbogacania uczenia maszynowego.
Służyć
Końcowy zestaw danych można obsłużyć bezpośrednio z warstwy data lake Curated lub użyć działania Kopiowania danych, aby pozyskać końcowy zestaw danych do tabel puli SQL przy użyciu polecenia COPY na potrzeby szybkiego pozyskiwania.
Załaduj odpowiednie dane z pul SQL usługi Azure Synapse, pul eksploratora danych lub magazynu data lake do zestawów danych usługi Power BI na potrzeby wizualizacji danych. Modele usługi Power BI implementują model semantyczny, aby uprościć analizę danych biznesowych i relacji. Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.
Źródła danych, które nie są ustrukturyzowane
Pozyskiwanie
Potoki usługi Azure Synapse umożliwiają ściąganie danych z różnych niestrukturalnych źródeł danych, zarówno lokalnych, jak i w chmurze. Na przykład:
- Pozyskiwanie wideo, obrazu, dźwięku lub wolnego tekstu ze źródeł opartych na plikach zawierających pliki źródłowe.
- Wywoływanie interfejsów API REST udostępnianych przez aplikacje SaaS, które będą działać jako źródło danych dla potoku.
Przechowuj
W warstwie Raw data lake organizuj magazyn data lake, postępując zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów do użycia w poszczególnych warstwach oraz formatów plików używanych w poszczególnych scenariuszach analitycznych.
Z potoku usługi Azure Synapse użyj działania Copy data (Kopiowanie danych), aby przygotować dane skopiowane ze źródeł danych niestrukturalnych do warstwy pierwotnejusługi Azure Data Lake Store Gen 2 data lake. Zapisz dane, zachowując oryginalny format uzyskany ze źródeł danych.
Przetwarzaj
Notesy platformy Spark umożliwiają weryfikowanie, przekształcanie, wzbogacanie i przenoszenie zestawów danych z warstwy Nieprzetworzonej za pośrednictwem warstwy Wzbogacone i do warstwy Wyselekcjonowanej w usłudze Data Lake.
- W ramach przekształceń danych można wywoływać modele uczenia maszynowego z pul SQL przy użyciu standardowych notesów języka T-SQL lub Spark. Te modele uczenia maszynowego mogą służyć do wzbogacania zestawów danych i generowania dalszych analiz biznesowych. Te modele uczenia maszynowego mogą być używane z usług Azure Cognitive Services lub niestandardowych modeli uczenia maszynowego z usługi Azure ML.
Służyć
Końcowy zestaw danych można obsłużyć bezpośrednio z warstwy data lake Curated lub użyć działania Kopiowania danych, aby pozyskać końcowy zestaw danych do tabel magazynu danych przy użyciu polecenia COPY na potrzeby szybkiego pozyskiwania.
Załaduj odpowiednie dane z puli SQL usługi Azure Synapse lub usługi Data Lake do zestawów danych usługi Power BI na potrzeby wizualizacji danych. Modele usługi Power BI implementują model semantyczny, aby uprościć analizę danych biznesowych i relacji.
Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.
Przesyłanie strumieniowe
Pozyskiwanie
- Użyj usługi Azure Event Hubs lub Azure IoT Hubs do pozyskiwania strumieni danych generowanych przez aplikacje klienckie lub urządzenia IoT. Usługa Event Hubs lub usługa IoT Hub będzie następnie pozyskiwać i przechowywać dane przesyłane strumieniowo, zachowując sekwencję odebranych zdarzeń. Użytkownicy mogą następnie łączyć się z punktami końcowymi usługi Event Hubs lub IoT Hub i pobierać komunikaty do przetwarzania.
Przechowuj
W warstwie nieprzetworzonej usługi Data Lake należy zorganizować magazyn data lake zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów używanych w poszczególnych warstwach i formatach plików używanych w poszczególnych scenariuszach analitycznych.
Skonfiguruj punkty końcowe usługi Event Hubs Capture lub IoT Hub Storage, aby zapisać kopię zdarzeń w warstwie Nieprzetworzonej usługi Azure Data Lake Store Gen 2 data lake. Ta funkcja implementuje wzorzec architektury Lambda "zimna ścieżka" i umożliwia przeprowadzanie analizy historycznej i trendu na danych strumienia zapisanych w usłudze Data Lake przy użyciu zapytań bezserwerowych SQL lub notesów platformy Spark zgodnie ze wzorcem dla częściowo ustrukturyzowanych źródeł danych opisanych powyżej.
Przetwarzaj
W przypadku szczegółowych informacji w czasie rzeczywistym użyj zadania usługi Stream Analytics, aby zaimplementować "gorącą ścieżkę" wzorca architektury lambda i uzyskać szczegółowe informacje na podstawie przesyłanych danych strumienia. Zdefiniuj co najmniej jedno dane wejściowe dla strumienia danych pochodzącego z usługi Event Hubs lub usługi IoT Hub, jedno zapytanie do przetwarzania wejściowego strumienia danych i jedno wyjście usługi Power BI, do którego będą wysyłane wyniki zapytania.
- W ramach przetwarzania danych za pomocą usługi Stream Analytics można wywoływać modele uczenia maszynowego, aby wzbogacić zestawy danych strumienia i podejmować decyzje biznesowe na podstawie wygenerowanych przewidywań. Te modele uczenia maszynowego mogą być używane z usług azure AI lub z niestandardowych modeli uczenia maszynowego w usłudze Azure Machine Learning.
Użyj innych danych wyjściowych zadania usługi Stream Analytics, aby wysyłać przetworzone zdarzenia do pul SQL usługi Azure Synapse LUB pul eksploratora danych w celu uzyskania dalszych przypadków użycia analizy.
W przypadku scenariuszy analizy danych telemetrycznych i szeregów czasowych niemal w czasie rzeczywistym użyj pul eksploratora danych, aby łatwo pozyskiwać zdarzenia IoT bezpośrednio z usługi Event Hubs lub IoT Hubs. Za pomocą pul eksploratora danych można używać zapytań Kusto (KQL) do przeprowadzania analizy szeregów czasowych, klastrowania geoprzestrzennych i wzbogacania uczenia maszynowego.
Służyć
Analitycy biznesowi używają następnie zestawów danych i pulpitów nawigacyjnych usługi Power BI w czasie rzeczywistym do wizualizacji szybko zmieniających się szczegółowych informacji generowanych przez zapytanie usługi Stream Analytics.
Dane mogą być również bezpiecznie udostępniane innym jednostkom biznesowym lub zewnętrznym zaufanym partnerom przy użyciu usługi Azure Data Share. Konsumenci danych mają swobodę wyboru formatu danych, którego chcą używać, a także tego, jakiego aparatu obliczeniowego najlepiej przetwarzać udostępnione zestawy danych.
Dane ustrukturyzowane i nieustrukturyzowane przechowywane w obszarze roboczym usługi Synapse mogą również służyć do tworzenia rozwiązań do wyszukiwania wiedzy i używania sztucznej inteligencji do odkrywania cennych analiz biznesowych w różnych typach dokumentów i formatach, w tym z dokumentów pakietu Office, plików PDF, obrazów, audio, formularzy i stron internetowych.
Składniki
W architekturze użyto następujących usług platformy Azure:
- Azure Synapse Analytics
- Azure Data Lake Gen2
- Azure Cosmos DB
- usługi Azure AI
- Azure Machine Learning
- Azure Event Hubs
- Azure IoT Hub
- Azure Stream Analytics
- Microsoft Purview
- Azure Data Share
- Microsoft Power BI
- Tożsamość Microsoft Entra
- Microsoft Cost Management
- Azure Key Vault
- Azure Monitor
- Microsoft Defender dla Chmury
- Azure DevOps
- Azure Policy
- GitHub
Alternatywy
W powyższej architekturze potoki usługi Azure Synapse są odpowiedzialne za aranżację potoków danych. Potoki usługi Azure Data Factory zapewniają również te same możliwości, co opisano w tym artykule.
Usługa Azure Databricks może być również używana jako aparat obliczeniowy używany do przetwarzania danych ze strukturą i bez struktury bezpośrednio w usłudze Data Lake.
W powyższej architekturze usługa Azure Stream Analytics jest usługą odpowiedzialną za przetwarzanie danych przesyłanych strumieniowo. Pule platformy Azure Synapse Spark i usługa Azure Databricks mogą również służyć do wykonywania tej samej roli za pośrednictwem wykonywania notesów.
Klastry platformy Kafka usługi Azure HDInsight mogą być również używane do pozyskiwania danych przesyłanych strumieniowo i zapewnienia odpowiedniego poziomu wydajności i skalowalności wymaganej przez duże obciążenia przesyłania strumieniowego.
Możesz również użyć usługi Azure Functions do wywoływania usług Azure AI lub niestandardowych modeli uczenia maszynowego usługi Azure Machine Learning z potoku usługi Azure Synapse.
Aby zapoznać się z porównaniem innych alternatyw, zobacz:
- Wybieranie technologii aranżacji potoku danych na platformie Azure
- Wybieranie technologii przetwarzania wsadowego na platformie Azure
- Wybieranie magazynu danych analitycznych na platformie Azure
- Wybieranie technologii analizy danych na platformie Azure
- Wybieranie technologii przetwarzania strumieniowego na platformie Azure
Szczegóły scenariusza
W tym przykładowym scenariuszu pokazano, jak korzystać z usługi Azure Synapse Analytics z szeroką rodziną usług Azure Data Services w celu utworzenia nowoczesnej platformy danych, która jest w stanie sprostać najczęstszym wyzwaniom związanym z danymi w organizacji.
Potencjalne przypadki użycia
Tego podejścia można również użyć do:
- Ustanów architekturę produktu danych, która składa się z magazynu danych dla danych strukturalnych i magazynu danych typu data lake dla częściowo ustrukturyzowanych i nieustrukturyzowanych danych. Możesz wdrożyć pojedynczy produkt danych dla scentralizowanych środowisk lub wielu produktów danych dla środowisk rozproszonych, takich jak Usługa Data Mesh. Zobacz więcej informacji na temat stref docelowych Zarządzanie danymi i danych.
- Integrowanie relacyjnych źródeł danych z innymi zestawami danych bez struktury przy użyciu technologii przetwarzania danych big data.
- Użyj semantycznego modelowania i zaawansowanych narzędzi do wizualizacji w celu prostszej analizy danych.
- Udostępnianie zestawów danych w organizacji lub zaufanych partnerów zewnętrznych.
- Zaimplementuj rozwiązania do wyszukiwania wiedzy, aby wyodrębnić cenne informacje biznesowe ukryte na obrazach, plikach PDF, dokumentach itd.
Zalecenia
Odnajdywanie i zarządzanie
Nadzór nad danymi jest częstym wyzwaniem w dużych środowiskach przedsiębiorstwa. Z jednej strony analitycy biznesowi muszą mieć możliwość odnajdywania i zrozumienia zasobów danych, które mogą pomóc im w rozwiązywaniu problemów biznesowych. Z drugiej strony dyrektorzy danych chcą uzyskać szczegółowe informacje na temat prywatności i bezpieczeństwa danych biznesowych.
Microsoft Purview
Usługa Microsoft Purview umożliwia odnajdywanie danych i szczegółowe informacje na temat zasobów danych, klasyfikacji danych i poufności, które obejmują cały krajobraz danych organizacji.
Usługa Microsoft Purview może pomóc w utrzymaniu słownika biznesowego z określoną terminologią biznesową wymaganą dla użytkowników w celu zrozumienia semantyki tego, co oznaczają zestawy danych i sposobu ich użycia w całej organizacji.
Możesz zarejestrować wszystkie źródła danych i zorganizować je w kolekcje, które również służą jako granica zabezpieczeń metadanych.
Skonfiguruj regularne skanowania , aby automatycznie katalogować i aktualizować odpowiednie metadane dotyczące zasobów danych w organizacji. Usługa Microsoft Purview może również automatycznie dodawać informacje o pochodzenia danych na podstawie informacji z potoków usługi Azure Data Factory lub Azure Synapse.
Klasyfikacja danych i etykiety poufności danych można dodawać automatycznie do zasobów danych na podstawie wstępnie skonfigurowanych lub stosowanych reguł celnych podczas regularnych skanowań.
Specjaliści ds. ładu danych mogą korzystać z raportów i szczegółowych informacji generowanych przez firmę Microsoft Purview, aby zachować kontrolę nad całym krajobrazem danych i chronić organizację przed wszelkimi problemami z zabezpieczeniami i prywatnością.
Usługi platformy
Aby poprawić jakość rozwiązań platformy Azure, postępuj zgodnie z zaleceniami i wytycznymi zdefiniowanymi w przewodniku Azure Well-Architected Framework pięć filarów doskonałości architektury: Optymalizacja kosztów, Doskonałość operacyjna, Wydajność wydajności, Niezawodność i Zabezpieczenia.
Zgodnie z poniższymi zaleceniami poniższe usługi powinny być brane pod uwagę w ramach projektu:
- Microsoft Entra ID: usługi tożsamości, logowanie jednokrotne i uwierzytelnianie wieloskładnikowe w obciążeniach platformy Azure.
- Microsoft Cost Management: nadzór finansowy nad obciążeniami platformy Azure.
- Azure Key Vault: bezpieczne zarządzanie poświadczeniami i certyfikatami. Na przykład potoki usługi Azure Synapse, pule platformy Azure Synapse Spark i usługa Azure ML mogą pobierać poświadczenia i certyfikaty z usługi Azure Key Vault używane do bezpiecznego uzyskiwania dostępu do magazynów danych.
- Azure Monitor: zbieranie, analizowanie i podejmowanie działań na temat danych telemetrycznych zasobów platformy Azure w celu proaktywnego identyfikowania problemów i maksymalizacji wydajności i niezawodności.
- Microsoft Defender dla Chmury: wzmacnianie i monitorowanie stanu zabezpieczeń obciążeń platformy Azure.
- Azure DevOps i GitHub: implementowanie rozwiązań DevOps w celu wymuszania automatyzacji i zgodności z potokami programowania i wdrażania obciążeń dla usług Azure Synapse i Azure ML.
- Azure Policy: implementowanie standardów organizacyjnych i ładu w celu zapewnienia spójności zasobów, zgodności z przepisami, zabezpieczeń, kosztów i zarządzania.
Kwestie wymagające rozważenia
Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.
Technologie w tej architekturze zostały wybrane, ponieważ każda z nich zapewnia niezbędne funkcje do obsługi najbardziej typowych wyzwań związanych z danymi w organizacji. Te usługi spełniają wymagania dotyczące skalowalności i dostępności, pomagając jednocześnie kontrolować koszty. Usługi objęte tą architekturą są tylko podzbiorem znacznie większej rodziny usług platformy Azure. Podobne wyniki można osiągnąć przy użyciu innych usług lub funkcji, które nie są objęte tym projektem.
Konkretne wymagania biznesowe dotyczące przypadków użycia analizy mogą również poprosić o użycie różnych usług lub funkcji, które nie są brane pod uwagę w tym projekcie.
Podobną architekturę można również zaimplementować w środowiskach przedprodukcyjnych, w których można opracowywać i testować obciążenia. Rozważ konkretne wymagania dotyczące obciążeń i możliwości każdej usługi dla ekonomicznego środowiska przedprodukcyjnego.
Optymalizacja kosztów
Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.
Ogólnie rzecz biorąc, możesz szacować koszty za pomocą kalkulatora cen platformy Azure. Idealna pojedyncza warstwa cenowa i całkowity całkowity koszt każdej usługi zawartej w architekturze zależy od ilości danych do przetworzenia i przechowywania oraz oczekiwanego akceptowalnego poziomu wydajności. Skorzystaj z poniższego przewodnika, aby dowiedzieć się więcej o tym, jak każda usługa jest wyceniona:
Architektura bezserwerowa usługi Azure Synapse Analytics umożliwia niezależne skalowanie poziomów zasobów obliczeniowych i magazynu. Opłaty za zasoby obliczeniowe są naliczane na podstawie użycia i można skalować lub wstrzymać te zasoby na żądanie. Opłaty za zasoby magazynu są naliczane za terabajt, więc koszty będą rosnąć w miarę pozyskiwania większej ilości danych.
Opłaty za usługę Azure Data Lake Gen 2 są naliczane na podstawie ilości przechowywanych danych i na podstawie liczby transakcji do odczytu i zapisu danych.
Opłaty za usługi Azure Event Hubs i Azure IoT Hubs są naliczane na podstawie ilości zasobów obliczeniowych wymaganych do przetwarzania strumieni komunikatów.
Opłaty za usługę Azure Machine Learning pochodzą z ilości zasobów obliczeniowych używanych do trenowania i wdrażania modeli uczenia maszynowego.
Opłaty za usługi Cognitive Services są naliczane na podstawie liczby wywołań do interfejsów API usługi.
Usługa Microsoft Purview jest wyceniona na podstawie liczby zasobów danych w katalogu i ilości mocy obliczeniowej wymaganej do ich skanowania.
Opłaty za usługę Azure Stream Analytics są naliczane na podstawie ilości mocy obliczeniowej wymaganej do przetwarzania zapytań strumienia.
Usługa Power BI ma różne opcje produktów dla różnych wymagań. Usługa Power BI Embedded udostępnia opcję opartą na platformie Azure na potrzeby osadzania funkcji usługi Power BI wewnątrz aplikacji. Wystąpienie usługi Power BI Embedded jest uwzględnione w powyższym przykładzie cenowym.
Usługa Azure Cosmos DB jest wyceniona na podstawie ilości magazynu i zasobów obliczeniowych wymaganych przez bazy danych.
Wdrażanie tego scenariusza
Ten artykuł zawiera repozytorium towarzyszące dostępne w usłudze GitHub, które pokazuje, jak zautomatyzować wdrażanie usług objętych tą architekturą. Postępuj zgodnie z kompleksową analizą platformy Azure z przewodnikiem wdrażania usługi Azure Synapse, aby wdrożyć tę architekturę w ramach subskrypcji. Ten przewodnik wdrażania zawiera szczegółowe instrukcje i wiele opcji wdrażania.
Współautorzy
Ten artykuł jest aktualizowany i obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Fabio Braga | Główny architekt techniczny MTC
Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.
Następne kroki
Zapoznaj się z wytycznymi zdefiniowanymi w scenariuszu zarządzania danymi i analizy danych platformy Azure dla skalowalnego środowiska analitycznego na platformie Azure.
Zapoznaj się z inżynierowie danych ścieżkami szkoleniowym w firmie Microsoft, aby dowiedzieć się więcej na temat zawartości i laboratoriów dotyczących usług związanych z tą architekturą referencyjną.
Zapoznaj się z dokumentacją i wdróż architekturę referencyjną przy użyciu akceleratora wdrażania dostępnego w witrynie GitHub.