Wybieranie technologii przetwarzania wsadowego na platformie Azure
Rozwiązania do obsługi danych big data często składają się z dyskretnych zadań przetwarzania wsadowego, które przyczyniają się do ogólnego rozwiązania do przetwarzania danych. Przetwarzanie wsadowe można używać dla obciążeń, które nie wymagają natychmiastowego dostępu do szczegółowych informacji. Przetwarzanie wsadowe może uzupełniać wymagania dotyczące przetwarzania w czasie rzeczywistym. Możesz również użyć przetwarzania wsadowego, aby zrównoważyć złożoność i zmniejszyć koszty ogólnej implementacji.
Podstawowym wymaganiem aparatów przetwarzania wsadowego jest skalowanie obliczeń w poziomie w celu obsługi dużej ilości danych. W przeciwieństwie do przetwarzania w czasie rzeczywistym przetwarzanie wsadowe ma opóźnienia lub czas między pozyskiwaniem i przetwarzaniem danych w ciągu kilku minut lub godzin.
Wybieranie technologii przetwarzania wsadowego
Firma Microsoft oferuje kilka usług, których można użyć do przetwarzania wsadowego.
Microsoft Fabric
Microsoft Fabric to platforma do analizy i danych typu all-in-one dla organizacji. Jest to oferta oprogramowania jako usługi, która upraszcza aprowizację kompleksowego rozwiązania analitycznego, zarządzanie nim i zarządzanie nim. Sieć szkieletowa obsługuje przenoszenie, przetwarzanie, pozyskiwanie, przekształcanie i raportowanie danych. Funkcje sieci szkieletowej używane do przetwarzania wsadowego obejmują inżynierię danych, magazyny danych, magazyny danych, magazyny lakehouse i przetwarzanie platformy Apache Spark. Usługa Azure Data Factory w usłudze Fabric obsługuje również magazyny lakehouse. Aby uprościć i przyspieszyć opracowywanie, możesz włączyć oparty na sztucznej inteligencji copilot.
Języki: R, Python, Java, Scala i SQL
Zabezpieczenia: Zarządzana sieć wirtualna i kontrola dostępu oparta na rolach w usłudze OneLake (RBAC)
Magazyn podstawowy: OneLake, który ma skróty i opcje dublowania
Spark: wstępnie wypełnianie puli początkowej i niestandardowej puli Spark ze wstępnie zdefiniowanymi rozmiarami węzłów
Azure Synapse Analytics
Azure Synapse Analytics to usługa analizy przedsiębiorstwa, która łączy technologie SQL i Spark w ramach jednej konstrukcji obszaru roboczego. Usługa Azure Synapse Analytics upraszcza zabezpieczenia, nadzór i zarządzanie. Każdy obszar roboczy ma zintegrowane potoki danych, których można użyć do tworzenia pełnych przepływów pracy. Możesz również aprowizować dedykowaną pulę SQL na potrzeby analizy na dużą skalę, bezserwerowego punktu końcowego SQL, którego można użyć do bezpośredniego wykonywania zapytań względem magazynu typu lake oraz środowiska uruchomieniowego Platformy Spark na potrzeby rozproszonego przetwarzania danych.
Języki: Python, Java, Scala i SQL
Zabezpieczenia: Zarządzana sieć wirtualna, kontrola dostępu oparta na rolach i kontrola dostępu oraz listy kontroli dostępu do magazynu w usłudze Azure Data Lake Storage
Magazyn podstawowy: usługa Data Lake Storage, a także integruje się z innymi źródłami
Spark: niestandardowa konfiguracja platformy Spark z wstępnie zdefiniowanymi rozmiarami węzłów
Azure Databricks
Azure Databricks to platforma analizy oparta na platformie Spark. Oferuje ona zaawansowane i premium funkcje platformy Spark, które są oparte na platformie Spark typu open source. Azure Databricks to usługa firmy Microsoft, która integruje się z resztą usług platformy Azure. Oferuje ona dodatkowe konfiguracje wdrożeń klastra Spark. Katalog aparatu Unity ułatwia uproszczenie ładu obiektów platformy Spark usługi Azure Databricks.
Języki: R, Python, Java, Scala i Spark SQL.
Zabezpieczenia: uwierzytelnianie użytkownika za pomocą identyfikatora Entra firmy Microsoft.
Magazyn podstawowy: wbudowana integracja z usługą Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics i innymi usługami. Aby uzyskać więcej informacji, zobacz Źródła danych.
Inne korzyści obejmują:
Notesy internetowe do współpracy i eksploracji danych.
Szybkie czasy uruchamiania klastra, automatyczne kończenie i skalowanie automatyczne.
Obsługa klastrów z obsługą procesora GPU.
Kluczowe kryteria wyboru
Aby wybrać technologię przetwarzania wsadowego, rozważ następujące pytania:
Czy chcesz zarządzać usługą zarządzaną, czy chcesz zarządzać własnymi serwerami?
Czy chcesz utworzyć logikę przetwarzania wsadowego deklaratywnie lub imperatywnie?
Czy wykonujesz przetwarzanie wsadowe w seriach? Jeśli tak, rozważ opcje, które umożliwiają automatyczne zakończenie klastra lub modele cenowe dla każdego zadania wsadowego.
Czy należy wykonywać zapytania dotyczące relacyjnych magazynów danych wraz z przetwarzaniem wsadowym, na przykład w celu wyszukania danych referencyjnych? Jeśli tak, rozważ opcje, które zapewniają możliwość wykonywania zapytań względem zewnętrznych magazynów relacyjnych.
Macierz możliwości
W poniższych tabelach podsumowano kluczowe różnice w możliwościach między usługami.
Ogólne możliwości
Możliwość | Sieć szkieletowa | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Oprogramowanie jako usługa | Tak1 | Nie. | Nie. |
Usługa zarządzana | Nie. | Tak | Tak |
Relacyjny magazyn danych | Tak | Tak | Tak |
Model cen | Jednostki pojemności | Pula SQL lub godzina klastra | Jednostka 2 i godzina klastra usługi Azure Databricks |
[1] Przypisana pojemność sieci szkieletowej.
[2] Jednostka usługi Azure Databricks to możliwość przetwarzania na godzinę.
Inne możliwości
Możliwość | Sieć szkieletowa | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Skalowanie automatyczne | Nie | Nie. | Tak |
Stopień szczegółowości skalowania w poziomie | Jednostka SKU na sieć szkieletową | Na klaster lub pulę SQL | Na klaster |
Buforowanie danych w pamięci | Nie. | Tak | Tak |
Wykonywanie zapytań z relacyjnych magazynów zewnętrznych | Tak | Nie | Tak |
Uwierzytelnianie | Microsoft Entra ID | SQL lub Microsoft Entra ID | Microsoft Entra ID |
Inspekcja | Tak | Tak | Tak |
Zabezpieczenia na poziomie wiersza | Tak | Tak 1 | Tak |
Obsługuje zapory | Tak | Tak | Tak |
Dynamiczne maskowanie danych | Tak | Tak | Tak |
[1] Tylko predykaty filtru. Aby uzyskać więcej informacji, zobacz Zabezpieczenia na poziomie wiersza.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Autorzy zabezpieczeń:
- Zoiner Tejada | Dyrektor generalny i architekt
- Pratima Valavala | Główny architekt rozwiązań
Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.
Następne kroki
- Co to jest sieć szkieletowa?
- Przewodnik po decyzjach dotyczących sieci szkieletowej
- Szkolenie: wprowadzenie do usługi Azure Synapse Analytics
- Co to jest usługa Azure HDInsight?
- Co to jest usługa Azure Databricks?