Celem tego artykułu jest przedstawienie praktycznej architektury korzystającej z usług Azure Cloud Services do przetwarzania dużych ilości danych geoprzestrzennych. Zapewnia ścieżkę do przodu, gdy rozwiązania lokalne nie są skalowane. Umożliwia również dalsze korzystanie z bieżących narzędzi do analizy geoprzestrzennej.
Apache®, Apache Spark®, GeoSpark® i Sedona® są zastrzeżonymi znakami towarowymi lub znakami towarowymi platformy Apache Software Foundation w Stany Zjednoczone i/lub innych krajach. Użycie tych znaków nie jest dorozumiane przez fundację Apache Software Foundation.
GeoPandas®, QGIS i ArcGIS®® są znakami towarowymi odpowiednich firm. Użycie tych znaków nie jest dorozumiane.
Architektura
Pobierz plik programu Visio z tą architekturą.
Przepływ pracy
- Usługa Azure Data Factory pozyskiwa dane geoprzestrzenne do usługi Azure Data Lake Storage. Źródłem tych danych są geoprzestrzenne bazy danych, takie jak Teradata, Oracle Spatial i PostgreSQL.
- Usługa Azure Key Vault zabezpiecza hasła, poświadczenia, parametry połączenia i inne wpisy tajne.
- Dane są umieszczane w różnych folderach i systemach plików w usłudze Data Lake Storage zgodnie z sposobem ich przetwarzania. Na diagramie przedstawiono architekturę wieloskoku . Kontener z brązu przechowuje nieprzetworzone dane, srebrny kontener przechowuje częściowo wyselekcjonowane dane, a złoty kontener zawiera w pełni wyselekcjonowane dane.
- Dane są przechowywane w formatach, takich jak GeoJson, WKT i Vector kafelki. Usługa Azure Databricks i pakiet GeoSpark/ Sedona mogą konwertować formaty i efektywnie ładować, przetwarzać i analizować dane przestrzenne na dużą skalę na maszynach.
- Usługi Azure Databricks i Apache Sedona wykonują różne rodzaje przetwarzania na dużą skalę:
- Sprzężenia, skrzyżowania i tessellations
- Próbkowanie przestrzenne i statystyki
- Indeksowanie przestrzenne i partycjonowanie
- GeoPandas eksportuje dane w różnych formatach do użycia przez aplikacje GIS innych firm, takie jak QGIS i ArcGIS.
- Usługa Azure Machine Learning wyodrębnia szczegółowe informacje z danych geoprzestrzennych, określając na przykład lokalizację i czas wdrażania nowych punktów dostępu bezprzewodowego.
- Wizualizacja Power BI i Azure Maps Power BI (wersja zapoznawcza) renderują kanwę mapy w celu wizualizacji danych geoprzestrzennych. Usługa Power BI używa natywnego łącznika usługi Azure Databricks do nawiązywania połączenia z klastrem usługi Azure Databricks.
- Log Analytics, narzędzie w witrynie Azure Portal, uruchamia zapytania dotyczące danych w dziennikach usługi Azure Monitor, aby zaimplementować niezawodny i precyzyjny system rejestrowania w celu analizowania zdarzeń i wydajności.
Składniki
- Usługa Azure Data Lake Storage to skalowalne i bezpieczne magazyny danych typu data lake na potrzeby obciążeń analitycznych o wysokiej wydajności. Za pomocą usługi Data Lake Storage można zarządzać petabajtami danych o wysokiej przepływności. Może ona pomieścić wiele, heterogenicznych źródeł i danych w formatach ustrukturyzowanych, częściowo ustrukturyzowanych lub nieustrukturyzowanych.
- Azure Databricks to platforma do analizy danych korzystająca z klastrów Spark. Klastry są zoptymalizowane pod kątem platformy Azure w chmurze.
- Azure Data Factory to w pełni zarządzana, skalowalna i bezserwerowa usługa integracji danych. Zapewnia ona warstwę integracji i przekształcania danych, która współpracuje z różnymi magazynami danych.
- Microsoft Power BI to zbiór usług oprogramowania, aplikacji i łączników, które współpracują ze sobą, aby przekształcić wiele źródeł danych w spójne, wizualne immersyjne i interaktywne szczegółowe informacje.
- Usługa Azure Maps to kolekcja usług geoprzestrzennych i zestawów SDK, które używają nowych danych mapowania w celu zapewnienia kontekstu geograficznego dla aplikacji internetowych i mobilnych.
- Azure Machine Learning to w pełni zarządzana usługa w chmurze używana do trenowania, wdrażania i zarządzania modelami uczenia maszynowego na dużą skalę.
- Azure Key Vault to usługa, która może służyć do bezpiecznego przechowywania, zarządzania i ścisłego kontrolowania dostępu do tokenów, poświadczeń, certyfikatów, kluczy interfejsu API i innych wpisów tajnych.
- Usługa Azure Monitor to kompleksowe rozwiązanie do zbierania, analizowania i działania na podstawie danych telemetrycznych z chmury i środowisk lokalnych. Można jej użyć, aby zmaksymalizować dostępność i wydajność aplikacji i usług.
Alternatywy
- Pul platformy Spark usługi Synapse można używać do analizy geoprzestrzennej zamiast usługi Azure Databricks, korzystając z tych samych struktur typu open source.
- Zamiast pozyskiwać dane z usługi Data Factory, możesz użyć usługi Azure Event Hubs. Może odbierać ogromne ilości danych bezpośrednio lub z innych usług przesyłania strumieniowego zdarzeń, takich jak Kafka. Następnie możesz użyć usługi Azure Databricks do przetwarzania danych. Aby uzyskać więcej informacji, zobacz Stream Processing with Azure Databricks (Przetwarzanie strumieniowe za pomocą usługi Azure Databricks).
- Zamiast usługi Azure Databricks można używać usługi Azure SQL Database lub Azure SQL Managed Instance do wykonywania zapytań i przetwarzania danych geoprzestrzennych. Te bazy danych udostępniają znany język T-SQL, którego można użyć do analizy geoprzestrzennej. Aby uzyskać więcej informacji, zobacz Spatial Data (SQL Server).
- Podobnie jak usługa Event Hubs, usługa Azure IoT Hub może pozyskiwać duże ilości danych z czujników i telekomunikacyjnych urządzeń IoT. Możesz użyć dwukierunkowej funkcji usługi IoT Hub, aby bezpiecznie komunikować się z urządzeniami i zarządzać nimi i kontrolować je z scentralizowanej platformy w chmurze.
- Usługa Azure Maps umożliwia udostępnianie kontekstu geograficznego aplikacjom internetowym i mobilnym. Oprócz analizy lokalizacji usługa Azure Maps może wyszukiwać usługi w celu lokalizowania adresów, miejsc i punktów orientacyjnych w celu uzyskania informacji o ruchu w czasie rzeczywistym. Wizualizacja usługi Power BI w usłudze Azure Maps zapewnia te same możliwości zarówno w programie Power BI Desktop, jak i w usługa Power BI.
Szczegóły scenariusza
Analiza lokalizacji i analiza geoprzestrzenna mogą odkrywać ważne trendy regionalne i zachowania wpływające na firmy telekomunikacyjne. Firmy mogą wykorzystać taką wiedzę, aby zwiększyć swój sygnał radiowy i zasięg bezprzewodowy, a tym samym uzyskać przewagę konkurencyjną.
Firmy telekomunikacyjne mają duże ilości geograficznie rozproszonych danych aktywów, z których większość to telemetria użytkownika. Dane pochodzą z sieci radiowych, urządzeń sensujących IoT i urządzeń zdalnego wykrywania, które przechwytują dane geoprzestrzenne. Jest w różnych formatach ustrukturyzowanych i częściowo ustrukturyzowanych, takich jak obrazy, GPS, satelita i tekstowe. Korzystanie z niego wymaga agregowania go i dołączania do innych źródeł, takich jak mapy regionalne i dane ruchu.
Po zagregacji i dołączeniu danych wyzwaniem jest wyodrębnienie z niego szczegółowych informacji. W przeszłości firmy telekomunikacyjne opierały się na starszych systemach, takich jak lokalne bazy danych z możliwościami geoprzestrzennymi. Ostatecznie takie systemy osiągną limity skalowalności ze względu na coraz większą ilość danych. Ponadto wymagają oprogramowania innej firmy do wykonywania zadań, których nie mogą wykonywać systemy baz danych geoprzestrzennych.
Potencjalne przypadki użycia
To rozwiązanie jest idealne dla branży telekomunikacyjnej i ma zastosowanie do następujących scenariuszy:
- Analizowanie informacji o sygnałach między lokalizacjami w celu oceny jakości sieci
- Analizowanie danych infrastruktury sieci w czasie rzeczywistym w celu przeprowadzenia konserwacji i naprawy
- Analizowanie segmentacji rynku i popytu na rynek
- Identyfikowanie relacji między lokalizacjami klientów a kampaniami marketingowymi firmy
- Tworzenie planów wydajności i pokrycia w celu zapewnienia łączności i jakości usług
Kwestie wymagające rozważenia
Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.
Podczas implementowania tego rozwiązania rozważ skorzystanie z platformy Microsoft Azure Well-Architected Framework . Ramy zawierają wskazówki techniczne dotyczące pięciu filarów: optymalizacji kosztów, bezpieczeństwa, niezawodności, wydajności wydajności i doskonałości operacyjnej.
Wydajność
- Postępuj zgodnie z przewodnikami programowania Apache Sedona dotyczącymi wzorców projektowych i najlepszych rozwiązań dotyczących dostrajania wydajności.
- Indeksowanie geoprzestrzenne ma kluczowe znaczenie dla przetwarzania danych geoprzestrzennych na dużą skalę. Apache Sedona i inne struktury indeksowania typu open source, takie jak H3 , zapewniają tę funkcję.
- Platforma GeoPandas nie ma rozproszonych funkcji GeoSpark / Apache Sedona. W związku z tym, jak to możliwe, użyj struktury Sedona do przetwarzania geoprzestrzennego.
- Rozważ użycie wbudowanych funkcji Sedona w celu zweryfikowania formatowania geometrii przed przetworzeniem.
Zabezpieczenia
Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Omówienie filaru zabezpieczeń.
Aby uzyskać lepsze zabezpieczenia, rozważ wykonanie następujących wskazówek:
- Tworzenie zakresu wpisu tajnego obsługiwanego przez usługę Azure Key Vault
- Bezpieczna łączność klastra (brak publicznego adresu IP (NPIP))
- Przechowywanie poświadczeń w usłudze Azure Key Vault
- Wdrażanie dedykowanych usług platformy Azure w sieciach wirtualnych
- Rozważ użycie warstwy Premium usługi Azure Databricks zamiast warstwy Standardowa, aby uzyskać więcej funkcji zabezpieczeń
- Przewodnik po zabezpieczeniach usługi Databricks
Optymalizacja kosztów
Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.
- Aby oszacować koszt implementacji tego rozwiązania, użyj kalkulatora cen platformy Azure dla usług wymienionych powyżej.
- Usługa Power BI oferuje różne oferty licencjonowania. Więcej informacji można znaleźć w Kalkulacja cen Power BI.
- Koszty rosną, jeśli trzeba skalować konfiguracje klastra usługi Azure Databricks. Zależy to od ilości danych i złożoności analizy. Aby uzyskać najlepsze rozwiązania dotyczące konfiguracji klastra, zobacz Najlepsze rozwiązania dotyczące usługi Azure Databricks : Konfiguracja klastra.
- Zobacz Omówienie filaru optymalizacji kosztów, aby uzyskać informacje na temat sposobów minimalizowania kosztów.
- W przypadku składników innych firm, takich jak QGIS i ArcGIS, zobacz witryny internetowe dostawców, aby uzyskać informacje o cenach.
- Struktury wymienione w tym rozwiązaniu, takie jak Apache Sedona i GeoPandas, to bezpłatne struktury typu open source.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Arash Mosharraf | Starszy architekt rozwiązań w chmurze
Następne kroki
- Wprowadzenie do usługi Azure Data Lake Storage Gen2
- Co to jest usługa Power BI?
- Co to jest usługa Azure Maps?
- Co to jest Azure Machine Learning?
- Informacje o usłudze Azure Key Vault
- Omówienie usługi Azure Monitor
- Przykłady usługi Azure Maps
- Samouczki dotyczące usługi Azure Data Factory
- Przewodniki programowania apache Sedona
- Wprowadzenie do geopandów
- Wprowadzenie do usługi GeoMesa
- Przetwarzanie danych geoprzestrzennych na dużą skalę za pomocą usługi Databricks
- Formaty plików GIS
- Dokumentacja usługi Apache Sedona
- Omówienie systemu indeksowania geoprzestrzennego H3
- Power BI i Esri ArcGIS
- QGIS
- H3: Sześciokątny system indeksowania geoprzestrzennego
- Jak przekształcić dane roamingu telefonu komórkowego odwiedzających w przychód?
- Pozycjonowanie 5G: co musisz wiedzieć