Beslutsvillkor för att välja rätt HDInsight-konfigurationsalternativ
Det finns olika konfigurationer av HDInsight-tjänsten som kan användas för olika analysscenarier. I själva verket innehåller HDInsight så många OSS-analystekniker att det kan betraktas som en enda kontaktpunkt för att uppfylla dina avancerade analytiska behov. Alla olika klustertyper som är tillgängliga kan uppfylla behoven i de affärsscenarier som beskrivs nedan. Med varje klustertyp har du fullständig kontroll över hur du hanterar vart och ett av dessa scenarier i HDInsight.
Många företag har liknande krav när det gäller scenarier för bearbetning och analys av data för att härleda affärsvärde. Dessa krav kan vara:
Satsvis bearbetning
HDInsight kan användas för att extrahera, transformera och läsa in (ETL) eller extrahera, läsa in och transformera (ELT) åtgärder på både strukturerade och ostrukturerade data med antingen Hadoop eller Spark och ramverken för databearbetning, inklusive Hive och Sqoop.
Datalagerhantering
Traditionellt gjort av lokala relationsdatabaser som SQL Server och på senare tid med Azure SQL Data Warehouse över strukturerade data i petabyteskala. HDInsight möjliggör interaktiva frågor i petabyteskala över strukturerade eller ostrukturerade data i många format. Den här funktionen kan fungera bra om du hanterar dina dataåtgärder och rapporteringskrav med HDInsight Hadoop med Hive.
Strömmande data
Strömmande data kan matas in från en mängd olika källor med hjälp av HDInsight via en händelsehubb eller IoT Hub med Spark Streaming.
Hybrid
Vissa organisationer har redan lokala stordatainfrastrukturer. Du kan utöka funktionen till molnet med HDInsight.
Den viktigaste beslutspunkten för att välja rätt konfigurationsalternativ för HDInsight-kluster baseras på den arbetsbelastning som HDInsight-klustret kommer att betjäna. Om din organisation arbetar med flera arbetsbelastningar är det inte ovanligt att växla till olika HDInsight-konfigurationer för att matcha den arbetsbelastning som behöver bearbetas.
Arbetsbelastningstyp | Klustertyp |
---|---|
Batchförflyttning av data | Apache Hadoop |
Datavetenskap – Batch och strömning | Apache Spark |
Transaktionsarbetsbelastningar | HBase |
Ad hoc-analys/datalagerhantering | Apache Interaktiv fråga |
Direktuppspelningsanalys | Apache Kafka |
Viktigt!
HDInsight-kluster är tillgängliga i olika typer, var och en för en enda arbetsbelastning eller teknik. Det finns ingen metod som stöds för att skapa ett kluster som kombinerar flera typer, till exempel Hadoop och HBase i ett kluster. Om din lösning kräver tekniker som är spridda över flera HDInsight-klustertyper kan ett virtuellt Azure-nätverk ansluta de olika klustertyper som krävs.