Capaciteitsplanning voor HDInsight-clusters
Voordat u een HDInsight-cluster implementeert, moet u de beoogde clustercapaciteit plannen door de benodigde prestaties en schaal te bepalen. Deze planning helpt bij het optimaliseren van zowel bruikbaarheid als kosten. Sommige beslissingen over clustercapaciteit kunnen na de implementatie niet worden gewijzigd. Als de prestatieparameters veranderen, kan een cluster worden gedemonteerd en opnieuw worden gemaakt zonder dat de opgeslagen gegevens verloren gaan.
De belangrijkste vragen die u moet stellen voor capaciteitsplanning zijn:
- In welke geografische regio moet u uw cluster implementeren?
- Hoeveel opslagruimte hebt u nodig?
- Welk clustertype moet u implementeren?
- Welke grootte en welk type virtuele machine (VM) moeten uw clusterknooppunten gebruiken?
- Hoeveel werkknooppunten moet uw cluster hebben?
Een Azure-regio kiezen
De Azure-regio bepaalt waar uw cluster fysiek is ingericht. Om de latentie van lees- en schrijfbewerkingen te minimaliseren, moet het cluster zich in de buurt van uw gegevens bevinden.
HDInsight is beschikbaar in veel Azure-regio's. Zie Producten die beschikbaar zijn per regio om de dichtstbijzijnde regio te vinden.
Opslaglocatie en -grootte kiezen
Locatie van standaardopslag
De standaardopslag, een Azure Storage-account of Azure Data Lake Storage, moet zich op dezelfde locatie bevinden als uw cluster. Azure Storage is beschikbaar op alle locaties. Data Lake Storage is beschikbaar in sommige regio's. Bekijk de huidige beschikbaarheid van Data Lake Storage.
Locatie van bestaande gegevens
Als u een bestaand opslagaccount of Data Lake Storage wilt gebruiken als de standaardopslag van uw cluster, moet u uw cluster op dezelfde locatie implementeren.
Opslaggrootte
Op een geïmplementeerd cluster kunt u nog een Azure Storage-account koppelen of andere Data Lake Storage-accounts openen. Al uw opslagaccounts moeten zich op dezelfde locatie bevinden als uw cluster. Een Data Lake Storage kan zich op een andere locatie bevinden, hoewel grote afstanden enige latentie kunnen veroorzaken.
Azure Storage heeft een aantal capaciteitslimieten, terwijl Data Lake Storage bijna onbeperkt is. Een cluster heeft toegang tot een combinatie van verschillende opslagaccounts. Enkele voorbeelden hiervan zijn:
- Wanneer de hoeveelheid gegevens waarschijnlijk de opslagcapaciteit van één blobopslagcontainer overschrijdt.
- Wanneer de toegangssnelheid voor de blobcontainer de drempelwaarde voor bandbreedtebeperking overschrijdt.
- Wanneer u gegevens wilt maken, hebt u al geüpload naar een blobcontainer die beschikbaar is voor het cluster.
- Wanneer u verschillende onderdelen van de opslag wilt isoleren om redenen van beveiliging of om het beheer te vereenvoudigen.
Gebruik slechts één container per opslagaccount voor betere prestaties.
Een clustertype kiezen
Het clustertype bepaalt de workload die uw HDInsight-cluster moet uitvoeren. Typen zijn Apache Hadoop, Apache Kafka of Apache Spark. Zie Inleiding tot Azure HDInsight voor een gedetailleerde beschrijving van de beschikbare clustertypen. Elk clustertype heeft een specifieke implementatietopologie met vereisten voor de grootte en het aantal knooppunten.
De VM-grootte en het type kiezen
Elk clustertype heeft een set knooppunttypen en elk knooppunttype heeft specifieke opties voor de VM-grootte en het type.
Als u de optimale clustergrootte voor uw toepassing wilt bepalen, kunt u de clustercapaciteit benchmarken en de grootte verhogen zoals aangegeven. U kunt bijvoorbeeld een gesimuleerde workload of een canary-query gebruiken. Voer uw gesimuleerde workloads uit op clusters met verschillende grootten. Verhoog geleidelijk de grootte totdat de beoogde prestaties zijn bereikt. Een canary-query kan periodiek worden ingevoegd onder de andere productiequery's om aan te geven of het cluster voldoende resources heeft.
Zie De juiste VM-grootte voor uw cluster selecteren voor meer informatie over het kiezen van de juiste VM-familie voor uw workload.
De clusterschaal kiezen
De schaal van een cluster wordt bepaald door de hoeveelheid VM-knooppunten. Voor alle clustertypen zijn er knooppunttypen met een specifieke schaal en knooppunttypen die ondersteuning bieden voor uitschalen. Een cluster kan bijvoorbeeld exact drie Apache ZooKeeper-knooppunten of twee hoofdknooppunten vereisen. Werkknooppunten die gegevensverwerking op gedistribueerde wijze uitvoeren, profiteren van andere werkknooppunten.
Afhankelijk van uw clustertype voegt het aantal werkknooppunten meer rekencapaciteit toe (zoals meer kernen). Meer knooppunten verhogen het totale geheugen dat nodig is voor het hele cluster ter ondersteuning van de opslag in het geheugen van gegevens die worden verwerkt. Net als bij de keuze van de VM-grootte en het type, wordt het selecteren van de juiste clusterschaal doorgaans empirisch bereikt. Gebruik gesimuleerde workloads of canary-query's.
U kunt uw cluster uitschalen om te voldoen aan piekbelastingsvereisten. Schaal deze vervolgens weer omlaag wanneer deze extra knooppunten niet meer nodig zijn. Met de functie Automatisch schalen kunt u uw cluster automatisch schalen op basis van vooraf bepaalde metrische gegevens en tijdsinstellingen. Zie HDInsight-clusters schalen voor meer informatie over het handmatig schalen van uw clusters.
Levenscyclus van clusters
Er worden kosten in rekening gebracht voor de levensduur van een cluster. Als er slechts specifieke tijden zijn waarop u uw cluster nodig hebt, maakt u clusters op aanvraag met behulp van Azure Data Factory. U kunt ook PowerShell-scripts maken die uw cluster inrichten en verwijderen en deze scripts vervolgens plannen met behulp van Azure Automation.
Notitie
Wanneer een cluster wordt verwijderd, wordt de standaard Hive-metastore ook verwijderd. Als u de metastore wilt behouden voor het volgende cluster dat opnieuw wordt gemaakt, gebruikt u een extern metagegevensarchief, zoals Azure Database of Apache Oozie.
Clustertaakfouten isoleren
Soms kunnen er fouten optreden vanwege de parallelle uitvoering van meerdere kaarten en het verminderen van onderdelen op een cluster met meerdere knooppunten. Probeer gedistribueerde tests uit om het probleem te isoleren. Gelijktijdig meerdere taken uitvoeren op één werkknooppuntcluster. Vouw vervolgens deze benadering uit om meerdere taken gelijktijdig uit te voeren op clusters met meer dan één knooppunt. Als u een HDInsight-cluster met één knooppunt in Azure wilt maken, gebruikt u de Custom(size, settings, apps)
optie en gebruikt u de waarde 1 voor het aantal werkknooppunten in de sectie Clustergrootte bij het inrichten van een nieuw cluster in de portal.
Quotumbeheer voor HDInsight weergeven
Bekijk een gedetailleerd niveau en categorisatie van het quotum op VM-familieniveau. Bekijk het huidige quotum en hoeveel quotum er nog is voor een regio op VM-familieniveau.
Notitie
Deze functie is momenteel beschikbaar in HDInsight 4.x en 5.x voor de regio VS - oost EUAP. Andere regio's die vervolgens moeten worden gevolgd.
Huidig quotum weergeven:
Bekijk het huidige quotum en hoeveel quotum er nog is voor een regio op vm-familieniveau.
Nieuwe quota per VM-familie en -regio aanvragen
- Klik op de rij waarvoor u de quotumdetails wilt weergeven.
Targets
Zie Quotumverhogingen aanvragen voor meer informatie over het beheren van abonnementsquota.
Volgende stappen
- Clusters instellen in HDInsight met Apache Hadoop, Spark, Kafka en meer: Informatie over het instellen en configureren van clusters in HDInsight.
- Clusterprestaties bewaken: meer informatie over belangrijke scenario's voor het bewaken van uw HDInsight-cluster die van invloed kunnen zijn op de capaciteit van uw cluster.