Proces wprowadzania danych za pomocą analizy na skalę chmury na platformie Azure
Platforma Azure udostępnia kilka usług pozyskiwania i wydawania danych na platformach natywnych i innych firm. Różne usługi mogą być używane w zależności od ilości, szybkości, różnorodności i kierunku. Niektóre z tych usług to:
- azure Data Factory to usługa utworzona dla wszystkich potrzeb aplikacji danych (dopasowanych do źródła) i poziomów umiejętności. Napisz własny kod lub twórz, wyodrębniaj, ładuj i przekształcaj procesy w intuicyjnym środowisku wizualnym, wszystko bez kodu. Dzięki ponad 90 natywnie zaprojektowanym i bezobsługowym łącznikom, można wizualnie integrować źródła danych bez dodatkowych kosztów. Inżynierowie mogą używać prywatnych punktów końcowych i łączyć usługi, aby bezpiecznie łączyć się z zasobami platformy Azure jako usługi (PaaS) bez korzystania z publicznych punktów końcowych zasobu PaaS. Inżynierowie mogą używać środowisk Integration Runtime do rozszerzania potoków do środowisk innych firm, takich jak lokalne źródła danych i inne chmury.
Niektóre z tych łączników obsługują funkcję źródła (odczytu) lub jako ujścia (zapisu). Usługi natywne platformy Azure, Oracle, SAP i inne mogą być używane jako źródła lub ujścia, ale nie wszystkie łączniki go obsługują. W takich przypadkach można użyć ogólnych łączników, takich jak Open Database Connectivity (ODBC), system plików lub łączniki protokołu SSH File Transfer Protocol (SFTP).
Azure Databricks to szybka, łatwa i wspólna usługa analityczna oparta na Apache Spark. W przypadku potoku danych big data można pozyskiwać dane (nieprzetworzone lub ustrukturyzowane) na platformie Azure za pośrednictwem usługi Data Factory w partiach lub przesyłane strumieniowo w czasie niemal rzeczywistym za pomocą platformy Apache Kafka, usługi Azure Event Hubs lub usługi IoT Hub. Te dane trafiają do magazynu typu data lake w celu długoterminowego, trwałego przechowywania w usłudze Azure Data Lake Storage. Usługa Azure Databricks może odczytywać dane z wielu źródeł danych w ramach przepływu pracy.
Platforma Microsoft Power Platform udostępnia łączniki setkom usług, które mogą być sterowane zdarzeniami, harmonogramem lub zdalną. Usługa Microsoft Power Automate może działać na zdarzeniach i wyzwalać przepływy pracy zoptymalizowane pod kątem pojedynczych rekordów lub małych woluminów danych.
Zastrzeżone narzędzia natywne oraz narzędzia firm trzecich zapewniają możliwości niszowej integracji z wyspecjalizowanymi systemami i replikacji niemal w czasie rzeczywistym.
- usługa Azure Data Share obsługuje organizacje w celu bezpiecznego udostępniania danych wielu klientom zewnętrznym i partnerom. Po utworzeniu konta udostępniania danych oraz dodaniu produktów danych, klienci i partnerzy mogą zostać zaproszeni do współdzielenia danych. Dostawcy danych mają zawsze kontrolę nad udostępnionymi danymi. Usługa Azure Data Share ułatwia zarządzanie i monitorowanie tego, jakie dane są udostępniane, kiedy były udostępniane i kto je udostępniał.
Ważny
Każda strefa lądowania danych może mieć grupę zasobów do pozyskiwania danych, która istnieje dla firm z agnostycznym silnikiem pozyskiwania danych. Jeśli nie masz tego silnika platformy, jedynym zalecanym zasobem jest wdrożenie obszaru roboczego analitycznego usługi Azure Databricks, który będzie używany przez integracje danych do uruchamiania złożonego pobierania danych. Zapoznaj się z silnikiem pobierania danych niezależnym od ich rodzaju w kontekście potencjalnych wzorców automatyzacji.
Zagadnienia dotyczące przetwarzania danych w usłudze Azure Data Factory
Jeśli masz mechanizm przetwarzania danych niezależny od rodzaju danych, powinieneś wdrożyć pojedynczą usługę Data Factory dla każdego obszaru docelowego danych w grupie zasobów pozyskiwania danych. Obszar roboczy usługi Data Factory powinien być całkowicie niedostępny dla użytkowników, a jedynie tożsamość zarządzana i jednostki usługowe będą miały dostęp do wdrażania. Operacje strefy docelowej danych powinny mieć dostęp do odczytu, aby umożliwić debugowanie potoku.
Aplikacja danych może mieć własną usługę Data Factory na potrzeby przenoszenia danych. Posiadanie usługi Data Factory w każdej grupie zasobów aplikacji danych wspiera kompletne środowisko ciągłej integracji (CI) i ciągłego wdrażania (CD), zezwalając tylko na wdrażanie potoków z usługi Azure DevOps lub GitHub.
Wszystkie obszary robocze usługi Data Factory będą głównie korzystać z funkcji zarządzanej sieci wirtualnej (VNet) w usłudze Data Factory lub z samoobsługowego środowiska integration runtime dla swoich stref przepływu danych wewnątrz strefy zarządzania danymi. Inżynierowie są zachęcani do korzystania z funkcji zarządzanej sieci wirtualnej w celu bezpiecznego nawiązywania połączenia z zasobem PaaS platformy Azure.
Istnieje jednak możliwość utworzenia większej liczby środowisk uruchomieniowych integracji do pozyskiwania danych z lokalnych źródeł, chmur innych firm oraz źródeł danych z oprogramowania jako usługi (SaaS) innych firm.
Zagadnienia dotyczące przetwarzania danych w usłudze Azure Databricks
Te wskazówki rozwijają informacje zawarte w:
Zabezpieczanie dostępu do usługi Azure Data Lake Storage Gen2 z usługi Azure Databricks
W przypadku programowania operacje integracyjne powinny mieć własne środowiska Azure Databricks, zanim kod zostanie zaewidencjonowany do wdrożenia w jednym obszarze roboczym Azure Databricks podczas etapu testów i produkcji.
Usługa Data Factory w grupie zasobów aplikacji danych (dopasowanej do źródła) powinna stanowić platformę do wywoływania zadań w usłudze Azure Databricks.
Zespoły aplikacji danych mogą wdrażać krótkie, zautomatyzowane zadania w usłudze Azure Databricks i oczekiwać, że ich klastry będą mogły szybko rozpocząć pracę, wykonać zadanie i zakończyć pracę. Zaleca się skonfigurowanie pul usługi Azure Databricks w celu skrócenia czasu potrzebnego na uruchomienie klastrów do obsługi zadań.
Zalecamy, aby organizacje używały usługi Azure DevOps do implementowania struktury wdrażania dla nowych potoków. Ramy będą używane do tworzenia folderów zestawów danych, przypisywania list kontroli dostępu oraz tworzenia tabeli z wymuszaniem kontroli dostępu do tabel Databricks lub bez niego.
Pozyskiwanie strumienia
Organizacje mogą wymagać obsługi scenariuszy, w których wydawcy generują strumienie zdarzeń o dużej szybkości. W przypadku tego wzorca zaleca się użycie kolejki komunikatów, na przykład usługi Event Hubs lub IoT Hub w celu pozyskiwania tych strumieni.
Usługi Event Hubs i IoT Hub to skalowalne usługi przetwarzania zdarzeń, które mogą pozyskiwać i przetwarzać duże ilości zdarzeń oraz dane z małymi opóźnieniami i wysoką niezawodnością. Usługa Event Hubs jest zaprojektowana jako usługa przesyłania strumieniowego danych big data i pozyskiwania zdarzeń. Usługa IoT Hub to zarządzana usługa, która służy jako centralne centrum komunikatów na potrzeby dwukierunkowej komunikacji między aplikacją IoT a zarządzanymi urządzeniami. Stamtąd dane mogą być eksportowane do magazynu typu data lake w regularnych odstępach czasu (wsadowo) i przetwarzane za pomocą usługi Azure Databricks niemal w czasie rzeczywistym za pośrednictwem przesyłania strumieniowego Apache Spark, usługi Azure Data Explorer, usługi Stream Analytics lub usługi Time Series Insights.
Ostatnia strefa docelowa usługi Event Hubs lub Apache Kafka wewnątrz określonej strefy docelowej przypadku użycia powinna wysłać swoje zagregowane dane do pierwotnej warstwy usługi Data Lake w jednej ze stref docelowych danych i do usługi Event Hubs powiązanej z grupą zasobów aplikacji danych (wyrównaną do źródła) w strefie docelowej danych.
Monitorowanie wprowadzania danych
Wbudowane monitorowanie potoków usługi Azure Data Factory może być używane do monitorowania i rozwiązywania problemów z wyjątkami tych potoków. Zmniejsza nakład pracy nad opracowaniem niestandardowego rozwiązania do monitorowania i raportowania.
Wbudowane monitorowanie jest jednym z głównych powodów używania usługi Azure Data Factory jako głównego narzędzia aranżacji, a usługa Azure Policy może pomóc zautomatyzować tę konfigurację.
Następne kroki
Przetwarzanie danych SAP za pomocą analityki w skali chmury w usłudze Azure