Plánování kapacity pro clustery HDInsight
Před nasazením clusteru HDInsight naplánujte zamýšlenou kapacitu clusteru určením potřebného výkonu a škálování. Toto plánování pomáhá optimalizovat použitelnost i náklady. Některá rozhodnutí o kapacitě clusteru se po nasazení nedají změnit. Pokud se parametry výkonu změní, je možné cluster odstranit a znovu vytvořit, aniž by došlo ke ztrátě uložených dat.
Klíčovými otázkami, které byste se chtěli zeptat na plánování kapacity, jsou:
- Ve které geografické oblasti byste měli cluster nasadit?
- Kolik úložiště potřebujete?
- Jaký typ clusteru byste měli nasadit?
- Jakou velikost a typ virtuálního počítače mají uzly clusteru používat?
- Kolik pracovních uzlů má mít váš cluster?
Volba oblasti Azure
Oblast Azure určuje, kde je váš cluster fyzicky zřízený. Aby se minimalizovala latence čtení a zápisů, cluster by měl být blízko vašich dat.
HDInsight je k dispozici v mnoha oblastech Azure. Pokud chcete najít nejbližší oblast, podívejte se na produkty dostupné podle oblasti.
Volba umístění a velikosti úložiště
Umístění výchozího úložiště
Výchozí úložiště, buď účet Azure Storage, nebo Azure Data Lake Storage, musí být ve stejném umístění jako váš cluster. Azure Storage je k dispozici ve všech umístěních. Data Lake Storage je k dispozici v některých oblastech – podívejte se na aktuální dostupnost Data Lake Storage.
Umístění existujících dat
Pokud chcete použít existující účet úložiště nebo Data Lake Storage jako výchozí úložiště clusteru, musíte cluster nasadit ve stejném umístění.
Velikost úložiště
V nasazeném clusteru můžete připojit další účty Azure Storage nebo přistupovat k jiné službě Data Lake Storage. Všechny účty úložiště musí být aktivní ve stejném umístění jako váš cluster. Data Lake Storage může být v jiném umístění, i když velké vzdálenosti můžou představovat určitou latenci.
Azure Storage má určitá omezení kapacity, zatímco Data Lake Storage je téměř neomezené. Cluster má přístup ke kombinaci různých účtů úložiště. Typické příklady zahrnují:
- Pokud je pravděpodobné, že množství dat překročí kapacitu úložiště jednoho kontejneru úložiště objektů blob.
- Když rychlost přístupu ke kontejneru objektů blob může překročit prahovou hodnotu, ve které dochází k omezování.
- Pokud chcete vytvořit data, už jste nahráli do kontejneru objektů blob, který je pro cluster dostupný.
- Pokud chcete izolovat různé části úložiště z důvodů zabezpečení nebo zjednodušit správu.
Pokud chcete dosáhnout lepšího výkonu, použijte pouze jeden kontejner na účet úložiště.
Volba typu clusteru
Typ clusteru určuje úlohu, na které je cluster HDInsight nakonfigurovaný tak, aby běžel. Mezi typy patří Apache Hadoop, Apache Kafka nebo Apache Spark. Podrobný popis dostupných typů clusterů najdete v tématu Úvod do služby Azure HDInsight. Každý typ clusteru má specifickou topologii nasazení, která zahrnuje požadavky na velikost a počet uzlů.
Zvolte velikost a typ virtuálního počítače.
Každý typ clusteru má sadu typů uzlů a každý typ uzlu má specifické možnosti pro jejich velikost a typ virtuálního počítače.
Pokud chcete určit optimální velikost clusteru pro vaši aplikaci, můžete porovnat kapacitu clusteru a zvětšit velikost, jak je uvedeno. Můžete například použít simulovanou úlohu nebo kanárový dotaz. Spusťte simulované úlohy v clusterech s různými velikostmi. Postupně zvětšete velikost, dokud nedosáhnete zamýšleného výkonu. Kanárický dotaz lze pravidelně vkládat mezi ostatní produkční dotazy, aby se zobrazilo, jestli má cluster dostatek prostředků.
Další informace o tom, jak zvolit správnou řadu virtuálních počítačů pro vaši úlohu, najdete v tématu Výběr správné velikosti virtuálního počítače pro váš cluster.
Volba škálování clusteru
Škálování clusteru je určeno množstvím jeho uzlů virtuálních počítačů. Pro všechny typy clusterů existují typy uzlů, které mají konkrétní škálování, a typy uzlů, které podporují horizontální navýšení kapacity. Například cluster může vyžadovat přesně tři uzly Apache ZooKeeper nebo dva hlavní uzly. Pracovní uzly, které zpracovávají data distribuovaným způsobem, využívají jiné pracovní uzly.
V závislosti na typu clusteru se zvýšením počtu pracovních uzlů zvýší výpočetní kapacita (například více jader). Více uzlů zvýší celkovou paměť potřebnou pro celý cluster pro podporu úložiště dat v paměti, která se zpracovávají. Stejně jako u výběru velikosti a typu virtuálního počítače se výběr správného škálování clusteru obvykle dosahuje empiricky. Používejte simulované úlohy nebo kanárské dotazy.
Cluster můžete škálovat na více instancí, abyste splnili požadavky na zatížení ve špičce. Pokud už tyto nadbytečné uzly nepotřebujete, můžete ho vertikálně snížit. Funkce automatického škálování umožňuje automaticky škálovat cluster na základě předem určených metrik a časování. Další informace o ručním škálování clusterů najdete v tématu Škálování clusterů HDInsight.
Životní cyklus clusteru
Účtuje se vám životnost clusteru. Pokud cluster potřebujete jenom v určitých časech, vytvořte clustery na vyžádání pomocí Azure Data Factory. Můžete také vytvořit skripty PowerShellu, které zřídí a odstraní váš cluster, a pak tyto skripty naplánovat pomocí služby Azure Automation.
Poznámka:
Po odstranění clusteru se odstraní také výchozí metastore Hive. K zachování metastoru pro další opětovné vytvoření clusteru použijte externí úložiště metadat, jako je Azure Database nebo Apache Oozie.
Izolace chyb úloh clusteru
Někdy může dojít k chybám z důvodu paralelního spouštění více map a redukce komponent v clusteru s více uzly. Pokud chcete tento problém izolovat, zkuste distribuované testování. Spuštění souběžných více úloh v clusteru s jedním pracovním uzlem Potom tento přístup rozbalte, pokud chcete souběžně spouštět více úloh v clusterech, které obsahují více než jeden uzel. Pokud chcete vytvořit cluster HDInsight s jedním uzlem v Azure, při zřizování nového clusteru na portálu použijte Custom(size, settings, apps)
hodnotu 1 pro počet pracovních uzlů v části Velikost clusteru.
Zobrazení správy kvót pro HDInsight
Zobrazte podrobnou úroveň a kategorizaci kvóty na úrovni rodiny virtuálních počítačů. Prohlédněte si aktuální kvótu a zbývající kvótu pro oblast na úrovni rodiny virtuálních počítačů.
Poznámka:
Tato funkce je aktuálně dostupná ve službě HDInsight 4.x a 5.x pro oblast EUAP usa – východ. Další oblasti, které budou následně následovat.
Zobrazit aktuální kvótu:
Podívejte se na aktuální kvótu a zbývající kvótu pro oblast na úrovni rodiny virtuálních počítačů.
Vyžádání nových kvót pro řadu virtuálních počítačů a oblast
- Klikněte na řádek, pro který chcete zobrazit podrobnosti kvóty.
Kvóty
Další informace o správě kvót předplatného najdete v tématu Žádosti o navýšení kvóty.
Další kroky
- Nastavení clusterů v HDInsight pomocí Apache Hadoopu, Sparku, Kafka a dalších: Zjistěte, jak v HDInsight nastavit a konfigurovat clustery.
- Monitorování výkonu clusteru: Seznamte se s klíčovými scénáři monitorování clusteru HDInsight, které můžou ovlivnit kapacitu clusteru.