Välja rätt VM-storlek för ditt Azure HDInsight-kluster
I den här artikeln beskrivs hur du väljer rätt VM-storlek för de olika noderna i HDInsight-klustret.
Börja med att förstå hur egenskaperna för en virtuell dator, till exempel processorbearbetning, RAM-storlek och nätverksfördröjning, påverkar bearbetningen av dina arbetsbelastningar. Tänk sedan på ditt program och hur det matchar vad olika VM-familjer är optimerade för. Kontrollera att den virtuella datorfamilj som du vill använda är kompatibel med den klustertyp som du planerar att distribuera. En lista över alla storlekar på virtuella datorer som stöds och rekommenderas för varje klustertyp finns i Nodkonfigurationer som stöds av Azure HDInsight. Slutligen kan du använda en benchmarkingprocess för att testa några exempelarbetsbelastningar och kontrollera vilken SKU i den familjen som passar dig bäst.
Mer information om hur du planerar andra aspekter av klustret, till exempel att välja en lagringstyp eller klusterstorlek, finns i Kapacitetsplanering för HDInsight-kluster.
Vm-egenskaper och stordataarbetsbelastningar
Vm-storlek och typ bestäms av processorkraft, RAM-storlek och nätverksfördröjning:
CPU: Storleken på den virtuella datorn avgör antalet kärnor. Ju fler kärnor, desto större grad av parallell beräkning kan varje nod uppnå. Vissa typer av virtuella datorer har också snabbare kärnor.
RAM: Storleken på den virtuella datorn avgör också mängden RAM-minne som är tillgängligt på den virtuella datorn. För arbetsbelastningar som lagrar data i minnet för bearbetning, i stället för att läsa från disk, kontrollerar du att arbetsnoderna har tillräckligt med minne för att passa data.
Nätverk: För de flesta klustertyper finns inte de data som bearbetas av klustret på en lokal disk, utan i stället i en extern lagringstjänst som Data Lake Storage eller Azure Storage. Överväg nätverksbandbredden och dataflödet mellan den virtuella nodddatorn och lagringstjänsten. Nätverksbandbredden som är tillgänglig för en virtuell dator ökar vanligtvis med större storlekar. Mer information finns i Översikt över VM-storlekar.
Förstå VM-optimering
Virtuella datorfamiljer i Azure är optimerade för olika användningsfall. I tabellen nedan hittar du några av de mest populära användningsfallen och de VM-familjer som matchar dem.
Typ | Storlekar | beskrivning |
---|---|---|
Startnivå | Av2 |
Ha processorprestanda och minneskonfigurationer som passar bäst för arbetsbelastningar på startnivå, till exempel utveckling och testning. De är ekonomiska och ger ett lågkostnadsalternativ för att komma igång med Azure. |
Generell användning | D , , DSv2 Dv2 |
Balanserat förhållande mellan processor och minne. Utmärkt för testning och utveckling, små till medelstora databaser och webbservrar med låg till medelhög trafik. |
Beräkningsoptimerad | F |
Högt förhållande mellan processor och minne. Bra för webbservrar med medelhög trafik, nätverkstillämpningar, batchprocesser och programservrar. |
Minnesoptimerad | Esv3 , Ev3 |
Högt förhållande mellan minne och processor. Utmärkt för relationsdatabasservrar, mellanstora till stora cacheminnen och minnesinterna analyser. |
- Information om priser för tillgängliga VM-instanser i HDInsight-regioner som stöds finns i HDInsight-priser.
Kostnadsbesparande VM-typer för lätta arbetsbelastningar
Om du har krav på lätt bearbetning kan F-serien vara ett bra val för att komma igång med HDInsight. F-serien har ett lägre listpris per timme och har bästa prisprestanda i Azure-portföljen baserat på Azure-beräkningsenhet (ACU, Azure Compute Unit) per virtuell processor.
I följande tabell beskrivs klustertyperna och nodtyperna, som kan skapas med de virtuella datorerna i Fsv2-serien.
Klustertyp | Version | Arbetsnod | Huvudnod | Zookeeper-nod |
---|---|---|---|---|
Spark | Alla | F4 och senare | nej | nej |
Hadoop | Alla | F4 och senare | nej | nej |
Kafka | Alla | F4 och senare | nej | nej |
HBase | Alla | F4 och senare | nej | nej |
LLAP | inaktiverat | nej | nej | nej |
Information om specifikationerna för varje SKU i F-serien finns i VM-storlekar i F-serien.
Riktmärkning
Benchmarking är processen att köra simulerade arbetsbelastningar på olika virtuella datorer för att mäta hur bra de presterar för dina produktionsarbetsbelastningar.
Mer information om benchmarking för VM-SKU:er och klusterstorlekar finns i Planera klusterkapacitet i Azure HDInsight .