Välja rätt VM-storlek för ditt Azure HDInsight-kluster

Artikel
05/23/2024

I den här artikeln beskrivs hur du väljer rätt VM-storlek för de olika noderna i HDInsight-klustret.

Börja med att förstå hur egenskaperna för en virtuell dator, till exempel processorbearbetning, RAM-storlek och nätverksfördröjning, påverkar bearbetningen av dina arbetsbelastningar. Tänk sedan på ditt program och hur det matchar vad olika VM-familjer är optimerade för. Kontrollera att den virtuella datorfamilj som du vill använda är kompatibel med den klustertyp som du planerar att distribuera. En lista över alla storlekar på virtuella datorer som stöds och rekommenderas för varje klustertyp finns i Nodkonfigurationer som stöds av Azure HDInsight. Slutligen kan du använda en benchmarkingprocess för att testa några exempelarbetsbelastningar och kontrollera vilken SKU i den familjen som passar dig bäst.

Mer information om hur du planerar andra aspekter av klustret, till exempel att välja en lagringstyp eller klusterstorlek, finns i Kapacitetsplanering för HDInsight-kluster.

Vm-egenskaper och stordataarbetsbelastningar

Vm-storlek och typ bestäms av processorkraft, RAM-storlek och nätverksfördröjning:

CPU: Storleken på den virtuella datorn avgör antalet kärnor. Ju fler kärnor, desto större grad av parallell beräkning kan varje nod uppnå. Vissa typer av virtuella datorer har också snabbare kärnor.
RAM: Storleken på den virtuella datorn avgör också mängden RAM-minne som är tillgängligt på den virtuella datorn. För arbetsbelastningar som lagrar data i minnet för bearbetning, i stället för att läsa från disk, kontrollerar du att arbetsnoderna har tillräckligt med minne för att passa data.
Nätverk: För de flesta klustertyper finns inte de data som bearbetas av klustret på en lokal disk, utan i stället i en extern lagringstjänst som Data Lake Storage eller Azure Storage. Överväg nätverksbandbredden och dataflödet mellan den virtuella nodddatorn och lagringstjänsten. Nätverksbandbredden som är tillgänglig för en virtuell dator ökar vanligtvis med större storlekar. Mer information finns i Översikt över VM-storlekar.

Förstå VM-optimering

Virtuella datorfamiljer i Azure är optimerade för olika användningsfall. I tabellen nedan hittar du några av de mest populära användningsfallen och de VM-familjer som matchar dem.

Typ	Storlekar	beskrivning
Startnivå	`Av2`	Ha processorprestanda och minneskonfigurationer som passar bäst för arbetsbelastningar på startnivå, till exempel utveckling och testning. De är ekonomiska och ger ett lågkostnadsalternativ för att komma igång med Azure.
Generell användning	`D`, , `DSv2Dv2`	Balanserat förhållande mellan processor och minne. Utmärkt för testning och utveckling, små till medelstora databaser och webbservrar med låg till medelhög trafik.
Beräkningsoptimerad	`F`	Högt förhållande mellan processor och minne. Bra för webbservrar med medelhög trafik, nätverkstillämpningar, batchprocesser och programservrar.
Minnesoptimerad	`Esv3`, `Ev3`	Högt förhållande mellan minne och processor. Utmärkt för relationsdatabasservrar, mellanstora till stora cacheminnen och minnesinterna analyser.

Information om priser för tillgängliga VM-instanser i HDInsight-regioner som stöds finns i HDInsight-priser.

Kostnadsbesparande VM-typer för lätta arbetsbelastningar

Om du har krav på lätt bearbetning kan F-serien vara ett bra val för att komma igång med HDInsight. F-serien har ett lägre listpris per timme och har bästa prisprestanda i Azure-portföljen baserat på Azure-beräkningsenhet (ACU, Azure Compute Unit) per virtuell processor.

I följande tabell beskrivs klustertyperna och nodtyperna, som kan skapas med de virtuella datorerna i Fsv2-serien.

Klustertyp	Version	Arbetsnod	Huvudnod	Zookeeper-nod
Spark	Alla	F4 och senare	nej	nej
Hadoop	Alla	F4 och senare	nej	nej
Kafka	Alla	F4 och senare	nej	nej
HBase	Alla	F4 och senare	nej	nej
LLAP	inaktiverat	nej	nej	nej

Information om specifikationerna för varje SKU i F-serien finns i VM-storlekar i F-serien.

Riktmärkning

Benchmarking är processen att köra simulerade arbetsbelastningar på olika virtuella datorer för att mäta hur bra de presterar för dina produktionsarbetsbelastningar.

Mer information om benchmarking för VM-SKU:er och klusterstorlekar finns i Planera klusterkapacitet i Azure HDInsight .

Dela via

Välja rätt VM-storlek för ditt Azure HDInsight-kluster

Vm-egenskaper och stordataarbetsbelastningar

Förstå VM-optimering

Kostnadsbesparande VM-typer för lätta arbetsbelastningar

Riktmärkning

Nästa steg

Feedback

Ytterligare resurser