Výběr správné velikosti virtuálního počítače pro cluster Azure HDInsight
Tento článek popisuje, jak vybrat správnou velikost virtuálního počítače pro různé uzly v clusteru HDInsight.
Začněte tím, že pochopíte, jak vlastnosti virtuálního počítače, jako je zpracování procesoru, velikost paměti RAM a latence sítě, ovlivňují zpracování vašich úloh. Dále se zamyslete nad vaší aplikací a s tím, jak odpovídá různým rodinám virtuálních počítačů, které jsou optimalizované. Ujistěte se, že řada virtuálních počítačů, kterou chcete použít, je kompatibilní s typem clusteru, který plánujete nasadit. Seznam všech podporovaných a doporučených velikostí virtuálních počítačů pro každý typ clusteru najdete v tématu Konfigurace podporovaných uzlů azure HDInsight. Nakonec můžete použít srovnávací proces k otestování některých ukázkových úloh a zkontrolovat, která skladová položka v rámci této řady je pro vás nejvhodnější.
Další informace o plánování dalších aspektů clusteru, jako je výběr typu úložiště nebo velikosti clusteru, najdete v tématu Plánování kapacity pro clustery HDInsight.
Vlastnosti virtuálních počítačů a úlohy s velkými objemy dat
Velikost a typ virtuálního počítače jsou určeny výkonem procesoru, velikostí paměti RAM a latencí sítě:
CPU: Velikost virtuálního počítače určuje počet jader. Čím více jader, tím větší je stupeň paralelního výpočtu, kterého může každý uzel dosáhnout. Některé typy virtuálních počítačů mají také rychlejší jádra.
PAMĚŤ RAM: Velikost virtuálního počítače také určuje velikost paměti RAM dostupnou na virtuálním počítači. U úloh, které ukládají data do paměti pro zpracování, a ne čtení z disku, zajistěte, aby pracovní uzly měly dostatek paměti pro přizpůsobení dat.
Síť: U většiny typů clusterů nejsou data zpracovávaná clusterem na místním disku, ale spíše v externí službě úložiště, jako je Data Lake Storage nebo Azure Storage. Zvažte šířku pásma a propustnost sítě mezi virtuálním počítačem uzlu a službou úložiště. Šířka pásma sítě dostupná pro virtuální počítač se obvykle zvyšuje s většími velikostmi. Podrobnosti najdete v přehledu velikostí virtuálních počítačů.
Principy optimalizace virtuálních počítačů
Rodiny virtuálních počítačů v Azure jsou optimalizované tak, aby vyhovovaly různým případům použití. V následující tabulce najdete některé z nejoblíbenějších případů použití a rodiny virtuálních počítačů, které se s nimi shodují.
Typ | Velikosti | Popis |
---|---|---|
Vstupní úroveň | Av2 |
Konfigurace výkonu procesoru a paměti jsou nejvhodnější pro úlohy na úrovni vstupu, jako je vývoj a testování. Jsou ekonomické a poskytují nízkonákladovou možnost, jak začít s Azure. |
Obecné účely | D , , DSv2 Dv2 |
Vyvážený poměr procesorů k paměti. Tato možnost je ideální pro testování a vývoj, malé až střední databáze a webové servery s nízkým až středním provozem. |
Optimalizované pro výpočty | F |
Vysoký poměr procesorů k paměti. Vhodné pro webové servery se středním provozem, síťová zařízení, dávkové procesy a aplikační servery. |
Optimalizované pro paměť | Esv3 , Ev3 |
Vysoký poměr paměti k procesoru. Jsou velmi vhodné pro servery s relační databází, střední a velké mezipaměti a analýzu v paměti. |
- Informace o cenách dostupných instancí virtuálních počítačů napříč podporovanými oblastmi HDInsight najdete v tématu Ceny služby HDInsight.
Úspora nákladů na typy virtuálních počítačů pro lehké úlohy
Pokud máte požadavky na zpracování světla, může být řada F-series dobrou volbou pro začátek se službou HDInsight. Za nižší ceníkové sazby za hodinu nabízí řada F-series nejlepší poměr cena–výkon v portfoliu Azure, pokud jde o množství výpočetních jednotek Azure (ACU) na virtuální procesor.
Následující tabulka popisuje typy clusterů a typy uzlů, které je možné vytvořit pomocí virtuálních počítačů řady Fsv2.
Typ clusteru | Verze | Pracovní uzel | Hlavní uzel | Uzel Zookeeper |
---|---|---|---|---|
Spark | Všechny | F4 a vyšší | ne | ne |
Hadoop | Všechny | F4 a vyšší | ne | ne |
Kafka | Všechny | F4 a vyšší | ne | ne |
HBase | Všechny | F4 a vyšší | ne | ne |
LLAP | deaktivováno | ne | ne | ne |
Pokud chcete zobrazit specifikace jednotlivých skladových položek řady F,podívejte se na velikosti virtuálních počítačů řady F.Series.
Benchmarking
Srovnávací testy jsou procesem spouštění simulovaných úloh na různých virtuálních počítačích, aby bylo možné měřit, jak dobře fungují pro produkční úlohy.
Další informace o srovnávacím testování skladových položek virtuálních počítačů a velikostí clusterů najdete v tématu Plánování kapacity clusteru ve službě Azure HDInsight .