Kryteria podejmowania decyzji dotyczące wybierania właściwej opcji konfiguracji usługi HDInsight
Istnieją różne konfiguracje usługi HDInsight, które mogą być używane w różnych scenariuszach analitycznych. W rzeczywistości usługa HDInsight zawiera tak wiele technologii analitycznych systemu operacyjnego, które można uznać za jeden punkt końcowy w celu spełnienia zaawansowanych potrzeb analitycznych. Wszystkie dostępne typy klastrów mogą spełniać potrzeby scenariuszy biznesowych opisanych poniżej. W przypadku każdego typu klastra masz pełną kontrolę nad sposobem zarządzania poszczególnymi scenariuszami w usłudze HDInsight.
Wiele firm ma podobne wymagania, jeśli chodzi o scenariusze przetwarzania i analizowania danych w celu uzyskania wartości biznesowej. Te wymagania mogą obejmować:
Przetwarzanie wsadowe
Usługa HDInsight może służyć do wyodrębniania, przekształcania i ładowania (ETL) lub wyodrębniania, ładowania i przekształcania (ELT) operacji zarówno na danych strukturalnych, jak i nieustrukturyzowanych przy użyciu platform Hadoop lub Spark oraz struktur przetwarzania danych, takich jak Hive i Sqoop.
Magazynowanie danych
Tradycyjnie wykonywane przez lokalne relacyjne bazy danych, takie jak SQL Server, a ostatnio w usłudze Azure SQL Data Warehouse na podstawie danych ze strukturą w skali petabajtów. Usługa HDInsight umożliwia interakcyjne zapytania na dużą skalę petabajtów na dane ustrukturyzowane lub nieustrukturyzowane w wielu formatach. Ta funkcja może działać dobrze, jeśli zarządzasz operacjami danych i wymaganiami raportowania przy użyciu usługi HDInsight Hadoop z programem Hive.
Przesyłanie strumieniowe danych
Dane przesyłane strumieniowo można pozyskiwać z różnych źródeł przy użyciu usługi HDInsight za pośrednictwem centrum zdarzeń lub usługi IoT Hub przy użyciu przesyłania strumieniowego platformy Spark.
Hybryda
Niektóre organizacje mają już lokalne infrastruktury danych big data. Możesz rozszerzyć możliwości chmury przy użyciu usługi HDInsight.
Kluczowy punkt decyzyjny dotyczący wybierania odpowiedniej opcji konfiguracji klastra usługi HDInsight jest oparty na obciążeniu, które będzie obsługiwał klaster usługi HDInsight. Jeśli twoja organizacja współpracuje z wieloma obciążeniami, nie rzadko przełącza się na różne konfiguracje usługi HDInsight, aby dopasować je do obciążenia wymagającego przetwarzania.
Typ obciążenia | Typ klastra |
---|---|
Przenoszenie danych wsadowych | Apache Hadoop |
Nauka o danych — usługa Batch i przesyłanie strumieniowe | Apache Spark |
Obciążenia transakcyjne | HBase |
Analiza ad hoc/magazynowanie danych | Zapytanie interakcyjne Apache |
Analiza przesyłania strumieniowego | Apache Kafka |
Ważne
Klastry usługi HDInsight są dostępne w różnych typach, z których każdy jest przeznaczony dla jednego obciążenia lub technologii. Nie ma obsługiwanej metody tworzenia klastra, który łączy wiele typów, takich jak Hadoop i HBase w jednym klastrze. Jeśli twoje rozwiązanie wymaga technologii rozmieszczonych w wielu typach klastrów usługi HDInsight, sieć wirtualna platformy Azure może połączyć różne wymagane typy klastrów.