Opcje konfiguracji usługi HDInsight

8 min

Usługa HDInsight oferuje szeroką gamę technologii systemu operacyjnego osadzonych w niej, które mogą służyć do obsługi scenariuszy przesyłania strumieniowego i danych wsadowych, które są terminami zdefiniowanymi w architekturach lambda. W tym modelu architektury istnieje gorąca ścieżka danych i zimna ścieżka danych. Gorąca ścieżka danych jest generowana w czasie rzeczywistym przez urządzenia, czujniki lub aplikacje, a analiza danych jest wykonywana niemal w czasie rzeczywistym. Jest to często nazywane danymi przesyłanymi strumieniowo. Zimna ścieżka danych polega na tym, że dane są przenoszone w partiach, zazwyczaj z innych magazynów danych i są często określane jako dane wsadowe.

Architektura rozwiązania lambda

Podczas implementowania usługi HDInsight przechowywanie danych odbywa się w ramach zgodnego rozproszonego systemu plików Hadoop (HDFS). Na platformie Azure usługa Data Lake Gen2 jest zwykle używana jako magazyn danych zgodny ze standardem HDFS. Dane ze ścieżki gorącej i ścieżki zimnej po przetworzeniu są przechowywane w scentralizowanym magazynie danych o nazwie Data Lake. Magazyn Data Lake może być oddzielony do przechowywania danych w różnych przedziałach, które mogą być definiowane przez stan danych (strefa docelowa, strefa transformacji itp.), wymagania dostępu (gorące, ciepłe i zimne) oraz grupy biznesowe. Warstwa Obsługa jest ostatnim przedziałem w usłudze Data Lake, który przechowuje dane w formacie gotowym do użycia przez różne typy odbiorców.

Krytycznie aspekt obliczeniowy usługi HDInsight dotyczy przetwarzania danych przesyłanych strumieniowo lub wsadowych i może się różnić w zależności od typu klastra wybranego podczas aprowizacji klastra usługi HDInsight. Usługa HDInsight oferuje usługi w poszczególnych opcjach klastra, jak pokazano w poniższej tabeli.

Typ klastra	Opis
Apache Hadoop	Struktura korzystająca z systemu plików HDFS i prostego modelu programowania MapReduce do przetwarzania i analizowania danych wsadowych.
Apache Spark	platforma przetwarzania równoległego typu „open source”, która obsługuje przetwarzanie w pamięci umożliwiające zwiększenie wydajności aplikacji do analizy danych big data.
HBase	baza danych NoSQL oparta na platformie Hadoop, która zapewnia dostęp losowy i wysoki poziom spójności w przypadku dużych ilości nieustrukturyzowanych i częściowo ustrukturyzowanych danych — potencjalnie miliardów wierszy pomnożonych przez miliony kolumn.
Zapytanie interakcyjne Apache	pamięć podręczna w pamięci do interaktywnego i szybszego wykonywania zapytań programu Hive.
Apache Kafka	platforma typu „open source”, która służy do tworzenia potoków danych przesyłanych strumieniowo i aplikacji do obsługi tych danych. Platforma Kafka obejmuje również funkcję kolejki komunikatów, która umożliwia publikowanie i subskrybowanie strumieni danych.

Dlatego ważne jest, aby wybrać prawidłowy typ klastra, aby spełnić przypadek biznesowy, który próbujesz rozwiązać. Niezależnie od wybranego typu klastra dodatkowe składniki typu open source są również dodawane wewnątrz klastra w celu zapewnienia dodatkowych możliwości, takich jak:

Zarządzanie usługą Hadoop

HCatalog — warstwa zarządzania tabelami i magazynami dla usługi Hadoop

Apache Ambari — ułatwia zarządzanie klastrem Apache Hadoop i monitorowanie go

Apache Oozie — system harmonogramu przepływu pracy do zarządzania zadaniami platformy Apache Hadoop

Apache Hadoop YARN — zarządza zarządzaniem zasobami i planowaniem zadań/monitorowaniem

Apache ZooKeeper — scentralizowana usługa do obsługi informacji o konfiguracji, nazewnictwa, zapewniania synchronizacji rozproszonej i świadczenia usług grupowych. 

Przetwarzanie danych

Apache Hadoop MapReduce — struktura umożliwiająca łatwe pisanie aplikacji, które przetwarzają ogromne ilości danych

Apache Tez — struktura aplikacji do przetwarzania danych

Apache Hive — ułatwia zarządzanie dużymi zestawami danych przechowywanymi w magazynie rozproszonym przy użyciu języka SQL

Analiza danych

Apache Pig — udostępnia warstwę abstrakcji w usłudze MapReduce do analizowania dużych zestawów danych

Apache Phoenix — umożliwia olTP i analizę operacyjną w usłudze Hadoop

Apache Mahout — struktura Algebra do tworzenia własnych algorytmów

Uwaga

W momencie pisania tekstu usługi Azure Data Lake Gen1 i Azure Blob Storage są obsługiwane warstwy magazynu danych dla usługi HDInsight. Należy przyjrzeć się migracji tych danych do usługi Azure Data Lake Gen2, ponieważ jest to zalecana platforma magazynu dla platform Spark i Hadoop, a także wybór domyślny dla bazy danych HBase. 

Opcje konfiguracji usługi HDInsight

Zarządzanie usługą Hadoop

Przetwarzanie danych

Analiza danych

Opinia