HDInsight-configuratieopties

8 minuten

HDInsight heeft een breed scala aan OSS-technologieën die erin zijn ingesloten, die kunnen worden gebruikt voor zowel streaming- als batchgegevensscenario's. Dit zijn termen die zijn gedefinieerd in Lambda-architecturen. In dit architectuurmodel is er een dynamisch pad naar gegevens en een koud pad naar gegevens. Het dynamische pad naar gegevens wordt in realtime gegenereerd door apparaten, sensoren of toepassingen en gegevensanalyses. Dit wordt vaak streaminggegevens genoemd. Een koud gegevenspad is wanneer gegevens in batches worden verplaatst, meestal uit andere gegevensarchieven en vaak batchgegevens worden genoemd.

Lambda-oplossingsarchitectuur

Bij het implementeren van HDInsight wordt de opslag van gegevens bewaard in een compatibele Hadoop Distributed File System (HDFS). In Azure wordt Data Lake Gen2 doorgaans gebruikt als een gegevensarchief omdat het HDFS-compatibel is. Gegevens uit het dynamische pad en het koude pad nadat de verwerking is opgeslagen in een gecentraliseerd gegevensarchief met de naam Data Lake. De Data lake op zichzelf kan worden gecompartimentaliseerd voor het opslaan van gegevens in verschillende compartimenten, die kunnen worden gedefinieerd door de status van gegevens (landingszone, transformatiezone, enzovoort), toegangsvereisten (warm, warm en koud) en bedrijfsgroepen. De Server-laag is het laatste compartiment in de data lake dat gegevens bevat in een indeling die klaar is voor gebruik door verschillende soorten consumenten.

Kritiek is dat het rekenaspect van HDInsight betrekking heeft op de verwerking van streaming- of batchgegevens en kan variëren, afhankelijk van het clustertype dat u selecteert wanneer u een HDInsight-cluster inricht. HDInsight biedt de services in afzonderlijke clusteropties, zoals wordt weergegeven in de volgende tabel.

Clustertype	Beschrijving
Apache Hadoop	Een framework dat gebruikmaakt van HDFS en een eenvoudig MapReduce-programmeermodel voor het verwerken en analyseren van batchgegevens.
Apache Spark	Een opensourcekader voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking om de prestaties van toepassingen voor de analyse van big data te verbeteren.
HBase	Een NoSQL-database gebouwd op Hadoop. Deze biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden (mogelijk miljarden rijen bij miljoenen kolommen) ongestructureerde en semi-gestructureerde gegevens.
Apache Interactive Query	Caching in geheugen voor interactieve en snellere Hive-query's.
Apache Kafka	Een opensourceplatform dat wordt gebruikt voor het bouwen van pijplijnen en toepassingen voor het streamen van gegevens. Kafka biedt ook berichtenwachtrijfunctionaliteit waarmee u gegevensstromen kunt publiceren en zich kunt abonneren op gegevensstromen.

Daarom is het belangrijk om het juiste clustertype te selecteren om te voldoen aan de bedrijfscase die u probeert op te lossen. Ongeacht het geselecteerde clustertype, worden er ook extra opensource-onderdelen toegevoegd in het cluster om extra mogelijkheden te bieden, waaronder:

Hadoop-beheer

HCatalog - Een tabel- en opslagbeheerlaag voor Hadoop

Apache Ambari - Vereenvoudigt het beheer en de bewaking van een Apache Hadoop-cluster

Apache Oozie - Een werkstroomplannersysteem voor het beheren van Apache Hadoop-taken

Apache Hadoop YARN : beheert resourcebeheer en taakplanning/-bewaking

Apache ZooKeeper : een gecentraliseerde service voor het onderhouden van configuratie-informatie, naamgeving, gedistribueerde synchronisatie en het leveren van groepsservices. 

Gegevensverwerking

Apache Hadoop MapReduce - Een framework voor het eenvoudig schrijven van toepassingen, die grote hoeveelheden gegevens verwerken

Apache Tez - Een toepassingsframework voor het verwerken van gegevens

Apache Hive : vereenvoudigt het beheren van grote gegevenssets die zich in gedistribueerde opslag bevinden met behulp van SQL

Gegevensanalyse

Apache Pig : biedt een abstractielaag over MapReduce om grote gegevenssets te analyseren

Apache Phoenix - Schakelt OLTP en operationele analyses in Hadoop in

Apache Mahout : een Algebra-framework om uw eigen algoritmen te maken

Notitie

Op het moment van schrijven worden Azure Data Lake Gen1 en Azure Blob Storage ondersteunde gegevensopslaglagen voor HDInsight. U moet deze gegevens migreren naar Azure Data Lake Gen2, omdat het het aanbevolen opslagplatform voor Spark en Hadoop is, evenals de standaardkeuze voor HBase. 

HDInsight-configuratieopties

Hadoop-beheer

Gegevensverwerking

Gegevensanalyse

Feedback