Delen via


Het Azure Well-Architected Framework voor HPC

Het plan voor HpC (High Performance Computing) van Azure geeft een overzicht van een proces voor het rationaliseren van uw scenario, het prioriteren van technische inspanningen en het identificeren van workloads. Voor veel van de workloads is het belangrijk om te voldoen aan een set architectuurprincipes. Deze principes helpen bij het ontwikkelen en optimaliseren van de workloads. De vijf architectuurconstructies worden beschreven in het Azure Well-Architected Framework. Deze richtlijnen bieden een overzicht van hoe u deze principes kunt toepassen op het beheer van uw gegevensworkloads.

Betrouwbaarheid

Alles heeft het potentieel om te breken. Gegevenspijplijnen zijn geen uitzondering. Geweldige architecturen zijn ontworpen met beschikbaarheid en tolerantie in het achterhoofd. De belangrijkste overwegingen zijn hoe snel u wijzigingen kunt detecteren en hoe snel u bewerkingen kunt hervatten.

Uw gegevensomgeving moet rekening houden met flexibele architecturen, redundantie tussen regio's, serviceniveau, sla's (service level agreements) en essentiële ondersteuning. De bestaande omgeving moet ook controle, bewaking en waarschuwingen omvatten met behulp van geïntegreerde bewaking en een meldingsframework.

Boven op deze omgevingscontroles moet het workloadteam rekening houden met:

  • Meer architectuuraanpassingen uitvoeren om sla's op serviceniveau te verbeteren.
  • Een redundante workloadspecifieke architectuur instellen.
  • Het opzetten van processen voor bewaking en meldingen buiten wat de cloudbewerkingsteams bieden.

Hybride ExpressRoute-connectiviteit

Gebruik een configuratie voor hoge beschikbaarheid van Azure ExpressRoute om essentiële HPC-workloads te ondersteunen. Zelfs op één site is de instelling voor hoge beschikbaarheid waar u mogelijk een redundante ExpressRoute-verbinding hebt, u hiermee niet beschermd tegen downtime van één edge-site. Wanneer u twee verbindingen op twee faciliteiten inschakelt, kan uw bedrijf met redundantie doorgaan als er een noodgeval op de primaire locatie is. Door hoge beschikbaarheid van ExpressRoute te gebruiken, kunt u ervoor zorgen dat er verbinding wordt gemaakt met Azure als er een ExpressRoute-storing optreedt in één regio.

Aanbevelingen

  • Schakel twee ExpressRoute-circuits in op twee verschillende Edge-sitelocaties van ExpressRoute voor maximale redundantie.
    • Voor deze installatie moet u twee ExpressRoute-circuits instellen in Azure Portal voor de twee verschillende Locaties van de ExpressRoute-edge-site. Vervolgens verbindt u beide ExpressRoute-circuits met hetzelfde virtuele hubnetwerk in Azure.
    • Plaats de twee edge-sitelocaties in dezelfde Azure-regio. Dit is wat de redundantie biedt voor het geval een van de peeringlocaties mislukt. Beide ExpressRoute-verbindingen worden beëindigd in hetzelfde virtuele hubnetwerk in Azure. Bekijk de lijst met ExpressRoute-locaties en connectiviteitspartners om uw ExpressRoute-peeringlocaties te plannen.
    • Werk samen met de provider om de tweede ExpressRoute-site te configureren.
    • Zorg ervoor dat de tweede verbinding werkt door een failover van verkeer naar de tweede locatie uit te geven. Dit is essentieel. Voer regelmatig drills uit om de connectiviteit te garanderen.

Zie Ontwerpen voor herstel na noodgevallen met ExpressRoute voor meer informatie over een maximale tolerantie voor ExpressRoute-configuratie.

Beveiliging

Pas beveiligingsprincipes toe op uw HPC-omgeving om bescherming te bieden tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Bekijk hoe u installatiekopieën van uw gebruikersbesturingssysteem en gebruikerstoegang beveiligt en volg de beveiligingsrichtlijnen voor Azure Batch en Azure CycleCloud. Zie Principes van de beveiligingspijler voor meer informatie.

Installatiekopieën van besturingssystemen

Azure Marketplace biedt HPC-installatiekopieën op basis van Linux die u in het cluster kunt gebruiken. Deze afbeeldingen bevatten veel populaire bibliotheken, softwarepakketten en diagnostische hulpprogramma's, zoals:

  • MpI-bibliotheken (Message Passing Interface) op basis van InfiniBand.
  • Mellanox OFED.
  • Vooraf geconfigureerd IP-adres via InfiniBand.
  • Communicatieruntimes.
  • Door Intel/AMD geoptimaliseerde bibliotheken.
  • Diagnostische hulpprogramma's van Azure HPC.

U kunt beginnen met de installatiekopieën en vervolgens het beveiligingsbeleid van uw organisatie toepassen om software-installatiekopieën te versterken tegen beveiligingsproblemen en cyberbedreigingen. Na validatie kunt u de nieuwe installatiekopieën opslaan in de Azure Compute Gallery. Vervolgens kunt u de installatiekopieën gebruiken om virtuele machines te maken in Azure CycleCloud, Azure HPC en Batch.

Gebruikerstoegang

  • Definieer duidelijke lijnen van verantwoordelijkheid en scheiding van taken voor elke functie.
  • Beperk de toegang op basis van noodzaak tot kennis en beveiligingsprincipes met minimale bevoegdheden.
  • Wijs machtigingen toe aan gebruikers, groepen en toepassingen binnen een bepaald bereik via op rollen gebaseerd toegangsbeheer van Azure. Gebruik indien mogelijk ingebouwde rollen.
  • Verwijdering of wijziging van een resource, resourcegroep of abonnement voorkomen via beheervergrendelingen.
  • Gebruik beheerde identiteiten om toegang te krijgen tot resources in Azure.
  • Ondersteuning voor één ondernemingsdirectory. Houd de cloud- en on-premises mappen gesynchroniseerd, met uitzondering van accounts met kritieke gevolgen.
  • Stel voorwaardelijke toegang van Microsoft Entra in. Belangrijke beveiligingskenmerken afdwingen en meten bij het verifiëren van alle gebruikers, met name voor accounts met kritieke gevolgen.
  • Gebruik methoden zonder wachtwoord of kies voor moderne wachtwoordmethoden.
  • Verouderde protocollen en verificatiemethoden blokkeren.

Azure Batch-beveiliging

Volg de aanbevolen procedures om beveiliging voor Batch in te schakelen.

Azure CycleCloud-beveiliging

Volg de aanbevolen procedures om beveiliging in te schakelen voor Azure CycleCloud.

Kostenoptimalisatie

Als u optimaal gebruik wilt maken van het uitvoeren van uw omgeving in Azure, geeft u prioriteit aan kostenbeheer en planningsoefeningen vooraf. Kostenbeheer en -planning zijn doorgaans de belangrijkste overwegingen voor het succesvolle cloudmigratietraject van een organisatie. Microsoft Cost Management biedt u hulpprogramma's voor het plannen, analyseren en verminderen van uitgaven om uw investeringen in de cloud te maximaliseren. Zie best practices voor kostenbeheer voor meer informatie over de manieren waarop u uw cloudkosten kunt plannen en optimaliseren. De volgende overwegingen zijn enkele van de belangrijkste in kostenoptimalisatie.

Keuze van besturingssysteem

Linux is het dominante besturingssysteem voor HPC-workloads. Linux is open source en afgestemd op prestaties voor het gebruik van de HPC-infrastructuur. De MPI-bibliotheken en Infiniband-stuurprogramma's werken dus goed in Linux versus Windows. Door virtuele Linux-machines (VM's) te gebruiken versus Windows voor het instellen van een HPC-cluster, kan dit zeker kosten besparen. Maar sommige gebruikers hebben mogelijk een sterke voorkeur voor een Windows-omgeving, met name tijdens het uitvoeren van de preverwerkings- en postverwerkingstaken in werkbelastingen, zoals rekenkundige vloeistofdynamiek. In dit geval raden we u aan om een Windows-front-end taken te verzenden naar een Linux-host, een hoofdknooppunt dat gebruikmaakt van de rekenknooppunten voor simulaties.

Automatisch schalen

Met automatisch schalen kunt u vm's alleen instellen en gebruiken wanneer u een taak verzendt of wanneer een taak actief is. Wanneer de taak is voltooid, worden de knooppunten automatisch uitgeschakeld. Door automatische schaalaanpassing te gebruiken, past u rekenresources aan die door uw toepassing worden gebruikt, waardoor u mogelijk tijd en geld bespaart. Azure CycleCloud heeft automatisch schalen standaard ingeschakeld in de schedulers. De standaardtijdlimiet voor het uitschakelen van de knooppunten is 15 minuten. U kunt de tijdslimiet aanpassen. De tijdslimiet zorgt ervoor dat gebruikers alleen betalen voor wat ze gebruiken. Batch biedt een mechanisme voor het integreren van een formule voor automatisch schalen met een keuze aan parameters. Zie Aan de slag met automatisch schalen in Azure voor meer informatie.

Betalen per gebruik versus gereserveerde instanties en spot-instanties

Azure biedt verschillende prijsopties, betalen per gebruik, gereserveerde instantie met opties van één of drie jaar en spot-exemplaren die onderhevig zijn aan de capaciteit die beschikbaar is in het datacenter. Instanties met betalen per gebruik zijn rendabel omdat ze tegemoetkomen aan sporadische vraag naar capaciteit. Gereserveerde instanties kunnen rendabel blijken te zijn als er continue vraag is naar HPC of als er veel toepassingen zijn die worden uitgevoerd in Azure HPC. Beide zijn geschikt voor workloads die gereed zijn voor productie. Spot-exemplaren zijn geschikt voor korte tests en experimenten of als uw toepassing controlepunten nodig heeft, bijvoorbeeld genomics. Spot-exemplaren zijn onderhevig aan de capaciteit die beschikbaar is in het datacenter. De prijzen zijn afhankelijk van deze factoren. U kunt spot-exemplaren met minimale kennisgeving verwijderen.

Gegevensclassificatie

HPC-workloads profiteren van opslag met hoge doorvoer. Gebruik bijvoorbeeld Azure Managed Lustre, Azure Net App Files of BeeGFS Parallel File System. Deze opslagservices leveren prestaties, maar kunnen kosten met zich mee brengen. Het is belangrijk om uw gegevens vooraf te classificeren, zodat alleen toepassingsspecifieke gegevens zich in deze systemen bevinden. Alle andere gegevens kunnen zich bevinden in goedkope opslagoplossingen, zoals Azure Data Lake Storage of Azure Blob Storage.

Verder kan het handig zijn om HPC-opslagsystemen op aanvraag in te stellen om ervoor te zorgen dat de gegevens worden gesynchroniseerd met een goedkope opslagservice zoals Blob Storage. Opslag op aanvraag zorgt ervoor dat gegevens worden bewaard in Blob Storage wanneer het krachtige opslagsysteem is uitgeschakeld. Managed Lustre en Net App Files bieden een synchronisatieservice.

Budgetten instellen

Met Azure CycleCloud kunt u budgetten per cluster instellen en meldingen verzenden naar ontvangers als ze de budgetten bijna leegmaken. Voor Batch kunt u budgetten en bestedingswaarschuwingen maken voor uw Batch-pools of Batch-accounts vanuit Azure Portal. Budgetten en waarschuwingen zijn handig om belanghebbenden op de hoogte te stellen van eventuele risico's van overbesteding, hoewel het mogelijk is dat er sprake is van vertraging in uitgavenwaarschuwingen en om een budget iets te overschrijden.

Operationele uitmuntendheid

Wanneer u uw HPC-toepassingen in productie houdt, moeten implementaties betrouwbaar en voorspelbaar zijn. Betrouwbare en voorspelbare implementaties bestaan uit het automatiseren van HPC-workloads met IaC-oplossingen (Infrastructure as Code). U moet ook knooppuntstatuscontroles uitvoeren om uw HPC-workloads te analyseren en te bewaken.

Zie Aanbevelingen voor het gebruik van infrastructuur als code voor meer informatie over implementatiesuggesties. Zie Aanbevelingen voor meer informatie over bewakingssuggesties voor het ontwerpen en maken van een bewakingssysteem.

Infrastructuur als code

HPC in Azure implementeert verschillende resources, zoals Azure CycleCloud, HPC-cluster, opslag, visualisatieknooppunten, licentieservers, enzovoort. Als u de implementatie wilt automatiseren, raden we u aan om industriestandaard hulpprogramma's zoals Terraform, Ansible en Packer te gebruiken om het proces te vereenvoudigen.

Statuscontrole van knooppunt

Azure Managed Grafana is een volledig beheerde service voor analyse- en bewakingsoplossingen. Grafana Labs ondersteunt Grafana en biedt uitbreidbare gegevensvisualisaties. U kunt deze oplossing als voorbeeld integreren in de HPC-workloads. Zie het Azure HPC OnDemand-platform voor meer informatie.

Prestatie-efficiëntie

Zorg ervoor dat uw HPC-omgeving efficiënt kan worden geschaald, zodat deze aan de eisen van gebruikers kan voldoen. Kies het juiste platform voor uw HPC-toepassingen op basis van aanbevelingen van de leverancier van toepassingen. Investeer in capaciteitsplanning als u extra infrastructuur nodig hebt om aan de vraag te voldoen. Bewaak de prestaties van de HPC-infrastructuur terwijl gebruikers uw systeem gebruiken.

Zie de artikelen over prestatie-efficiëntie voor meer informatie.

Het juiste platform kiezen voor de HPC-toepassing

Azure biedt een scala aan platforms voor VM's op basis van Intel, AMD CPU en NVIDIA en AMD GPU. Hoewel de meeste toepassingen compatibel zijn met wat er beschikbaar is, profiteren sommigen alleen van een bepaald type CPU of GPU. Voordat u uw infrastructuur in de cloud implementeert, is het belangrijk dat u een aanbeveling van de leverancier van de toepassing (ISV) krijgt om inzicht te krijgen in de volgende behoeften.

  • Als de toepassing afhankelijk is van het geheugen, de CPU-gebonden of gpu-gebonden
  • Als ze aanbevelingen hebben voor elk type CPU- of GPU-architectuur voor prestaties
  • Als er een type MPI en de bijbehorende versie is waarvan de toepassing kan profiteren
  • Als er een aanbeveling is voor het scheduler-type
  • Als er een aanbeveling is voor de IOPS/doorvoer van de parallelle bestandssystemen

Investeren in capaciteitsplanning

Controleer op basis van het type van de toepassing en de licentievoorwaarden of de licentie is ingesteld op het gebruik van een specifiek aantal kernen. Beoordeel uw investering om de licentie in staat te stellen om te voldoen aan HPC en plan vervolgens uw capaciteit dienovereenkomstig.

De prestaties van infrastructuur bewaken

  • Het is belangrijk om de manier te volgen waarop gebruikers uw systeem gebruiken, resourcegebruik traceren en over het algemeen de status en prestaties van uw systeem bewaken. U kunt deze informatie gebruiken als diagnostisch hulpmiddel om problemen te detecteren en op te lossen, en om potentiële problemen op te sporen en te voorkomen dat ze optreden. Zie het overzicht van Azure Monitor voor een overzicht van de Azure-onderdelen en -services die beschikbaar zijn om uw resources te bewaken.
  • Monitor is een uitstekend hulpprogramma om te bepalen of er knelpunten zijn in de VM-exemplaren en -opslag.
  • Opslagbeperking kan ertoe leiden dat toepassingen aanzienlijk vertragen en de prestaties beïnvloeden. Beperking treedt op wanneer invoer- en uitvoerbewerkingen binnen de opslag de doorvoerlimieten overschrijden die u hebt ingesteld. Azure Storage-services bieden grafieken voor lees- en schrijfbewerkingen om te controleren of er problemen zijn met beperking.
  • Azure CycleCloud kan worden geïntegreerd met Azure-services zoals Monitor en Microsoft Cost Management-hulpprogramma's. Het biedt ook ondersteuning voor het bewaken van externe services via de pluggable-architectuur. Zie Bewaking voor meer informatie.
  • Als u Batch gebruikt, is Batch Explorer bovendien een gratis, uitgebreid, zelfstandig clienthulpprogramma om Batch-toepassingen te maken, fouten op te sporen en te bewaken.

Volgende stappen