HDInsight-configuratieopties
HDInsight heeft een breed scala aan OSS-technologieën die erin zijn ingesloten, die kunnen worden gebruikt voor zowel streaming- als batchgegevensscenario's. Dit zijn termen die zijn gedefinieerd in Lambda-architecturen. In dit architectuurmodel is er een dynamisch pad naar gegevens en een koud pad naar gegevens. Het dynamische pad naar gegevens wordt in realtime gegenereerd door apparaten, sensoren of toepassingen en gegevensanalyses. Dit wordt vaak streaminggegevens genoemd. Een koud gegevenspad is wanneer gegevens in batches worden verplaatst, meestal uit andere gegevensarchieven en vaak batchgegevens worden genoemd.
Bij het implementeren van HDInsight wordt de opslag van gegevens bewaard in een compatibele Hadoop Distributed File System (HDFS). In Azure wordt Data Lake Gen2 doorgaans gebruikt als een gegevensarchief omdat het HDFS-compatibel is. Gegevens uit het dynamische pad en het koude pad nadat de verwerking is opgeslagen in een gecentraliseerd gegevensarchief met de naam Data Lake. De Data lake op zichzelf kan worden gecompartimentaliseerd voor het opslaan van gegevens in verschillende compartimenten, die kunnen worden gedefinieerd door de status van gegevens (landingszone, transformatiezone, enzovoort), toegangsvereisten (warm, warm en koud) en bedrijfsgroepen. De Server-laag is het laatste compartiment in de data lake dat gegevens bevat in een indeling die klaar is voor gebruik door verschillende soorten consumenten.
Kritiek is dat het rekenaspect van HDInsight betrekking heeft op de verwerking van streaming- of batchgegevens en kan variëren, afhankelijk van het clustertype dat u selecteert wanneer u een HDInsight-cluster inricht. HDInsight biedt de services in afzonderlijke clusteropties, zoals wordt weergegeven in de volgende tabel.
Clustertype | Beschrijving |
---|---|
Apache Hadoop | Een framework dat gebruikmaakt van HDFS en een eenvoudig MapReduce-programmeermodel voor het verwerken en analyseren van batchgegevens. |
Apache Spark | Een opensourcekader voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking om de prestaties van toepassingen voor de analyse van big data te verbeteren. |
HBase | Een NoSQL-database gebouwd op Hadoop. Deze biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden (mogelijk miljarden rijen bij miljoenen kolommen) ongestructureerde en semi-gestructureerde gegevens. |
Apache Interactive Query | Caching in geheugen voor interactieve en snellere Hive-query's. |
Apache Kafka | Een opensourceplatform dat wordt gebruikt voor het bouwen van pijplijnen en toepassingen voor het streamen van gegevens. Kafka biedt ook berichtenwachtrijfunctionaliteit waarmee u gegevensstromen kunt publiceren en zich kunt abonneren op gegevensstromen. |
Daarom is het belangrijk om het juiste clustertype te selecteren om te voldoen aan de bedrijfscase die u probeert op te lossen. Ongeacht het geselecteerde clustertype, worden er ook extra opensource-onderdelen toegevoegd in het cluster om extra mogelijkheden te bieden, waaronder:
Hadoop-beheer
HCatalog - Een tabel- en opslagbeheerlaag voor Hadoop
Apache Ambari - Vereenvoudigt het beheer en de bewaking van een Apache Hadoop-cluster
Apache Oozie - Een werkstroomplannersysteem voor het beheren van Apache Hadoop-taken
Apache Hadoop YARN : beheert resourcebeheer en taakplanning/-bewaking
Apache ZooKeeper : een gecentraliseerde service voor het onderhouden van configuratie-informatie, naamgeving, gedistribueerde synchronisatie en het leveren van groepsservices.
Gegevensverwerking
Apache Hadoop MapReduce - Een framework voor het eenvoudig schrijven van toepassingen, die grote hoeveelheden gegevens verwerken
Apache Tez - Een toepassingsframework voor het verwerken van gegevens
Apache Hive : vereenvoudigt het beheren van grote gegevenssets die zich in gedistribueerde opslag bevinden met behulp van SQL
Gegevensanalyse
Apache Pig : biedt een abstractielaag over MapReduce om grote gegevenssets te analyseren
Apache Phoenix - Schakelt OLTP en operationele analyses in Hadoop in
Apache Mahout : een Algebra-framework om uw eigen algoritmen te maken
Notitie
Op het moment van schrijven worden Azure Data Lake Gen1 en Azure Blob Storage ondersteunde gegevensopslaglagen voor HDInsight. U moet deze gegevens migreren naar Azure Data Lake Gen2, omdat het het aanbevolen opslagplatform voor Spark en Hadoop is, evenals de standaardkeuze voor HBase.