Kryteria podejmowania decyzji dotyczące wybierania właściwej opcji konfiguracji usługi HDInsight

7 min

Istnieją różne konfiguracje usługi HDInsight, które mogą być używane w różnych scenariuszach analitycznych. W rzeczywistości usługa HDInsight zawiera tak wiele technologii analitycznych systemu operacyjnego, które można uznać za jeden punkt końcowy w celu spełnienia zaawansowanych potrzeb analitycznych. Wszystkie dostępne typy klastrów mogą spełniać potrzeby scenariuszy biznesowych opisanych poniżej. W przypadku każdego typu klastra masz pełną kontrolę nad sposobem zarządzania poszczególnymi scenariuszami w usłudze HDInsight. 

Wiele firm ma podobne wymagania, jeśli chodzi o scenariusze przetwarzania i analizowania danych w celu uzyskania wartości biznesowej. Te wymagania mogą obejmować:

Przetwarzanie wsadowe

Usługa HDInsight może służyć do wyodrębniania, przekształcania i ładowania (ETL) lub wyodrębniania, ładowania i przekształcania (ELT) operacji zarówno na danych strukturalnych, jak i nieustrukturyzowanych przy użyciu platform Hadoop lub Spark oraz struktur przetwarzania danych, takich jak Hive i Sqoop.  

Magazynowanie danych

Tradycyjnie wykonywane przez lokalne relacyjne bazy danych, takie jak SQL Server, a ostatnio w usłudze Azure SQL Data Warehouse na podstawie danych ze strukturą w skali petabajtów. Usługa HDInsight umożliwia interakcyjne zapytania na dużą skalę petabajtów na dane ustrukturyzowane lub nieustrukturyzowane w wielu formatach. Ta funkcja może działać dobrze, jeśli zarządzasz operacjami danych i wymaganiami raportowania przy użyciu usługi HDInsight Hadoop z programem Hive. 

Przesyłanie strumieniowe danych

Dane przesyłane strumieniowo można pozyskiwać z różnych źródeł przy użyciu usługi HDInsight za pośrednictwem centrum zdarzeń lub usługi IoT Hub przy użyciu przesyłania strumieniowego platformy Spark.  

Hybryda

Niektóre organizacje mają już lokalne infrastruktury danych big data. Możesz rozszerzyć możliwości chmury przy użyciu usługi HDInsight.

Kluczowy punkt decyzyjny dotyczący wybierania odpowiedniej opcji konfiguracji klastra usługi HDInsight jest oparty na obciążeniu, które będzie obsługiwał klaster usługi HDInsight. Jeśli twoja organizacja współpracuje z wieloma obciążeniami, nie rzadko przełącza się na różne konfiguracje usługi HDInsight, aby dopasować je do obciążenia wymagającego przetwarzania.

Typ obciążenia	Typ klastra
Przenoszenie danych wsadowych	Apache Hadoop
Nauka o danych — usługa Batch i przesyłanie strumieniowe	Apache Spark
Obciążenia transakcyjne	HBase
Analiza ad hoc/magazynowanie danych	Zapytanie interakcyjne Apache
Analiza przesyłania strumieniowego	Apache Kafka

Ważne

Klastry usługi HDInsight są dostępne w różnych typach, z których każdy jest przeznaczony dla jednego obciążenia lub technologii. Nie ma obsługiwanej metody tworzenia klastra, który łączy wiele typów, takich jak Hadoop i HBase w jednym klastrze. Jeśli twoje rozwiązanie wymaga technologii rozmieszczonych w wielu typach klastrów usługi HDInsight, sieć wirtualna platformy Azure może połączyć różne wymagane typy klastrów.

Kryteria podejmowania decyzji dotyczące wybierania właściwej opcji konfiguracji usługi HDInsight

Przetwarzanie wsadowe

Magazynowanie danych

Przesyłanie strumieniowe danych

Hybryda

Opinia