Récapitulatif

10 minutes

Dans ce module, nous avons examiné les facteurs importants impliqués dans le choix du stockage HPC dans Azure. Il est maintenant temps de combiner ces informations afin de créer un outil que vous pourrez utiliser pour évaluer les différentes options de stockage Azure.

Nous allons créer une check-list avec les principales considérations relatives au stockage. Vous vous demandez peut-être pourquoi une check-list est nécessaire, en particulier si vous surveillez depuis longtemps votre environnement de stockage actuel. L’objectif est de regrouper les informations pour les autres parties prenantes, notamment les membres de l’équipe Azure et les partenaires avec lesquels vous pouvez travailler. La check-list permet de faciliter le processus de décision et de réduire les malentendus concernant les fonctionnalités (ou l’absence de fonctionnalités) d’une solution de stockage particulière.

Créez votre check-list en fonction de la liste suivante d’éléments à prendre en compte.

Distribution du trafic des charges de travail

Prenez en compte les types de trafic qui sont générés et traités par votre environnement HPC. Cette étape est particulièrement importante si vous envisagez d’exécuter plusieurs types de charges de travail et que vous envisagez d’utiliser le stockage à d’autres fins.

Par exemple, votre charge de travail HPC peut lire des données séquentielles à partir d’un fichier volumineux (comme une ressource multimédia à partir d’un travail de rendu ou un fichier de séquences génomiques) depuis un grand nombre de machines HPC. Au même moment, il peut être nécessaire d’exploiter une base de données (par exemple, pour travailler avec votre planificateur HPC). Les types de trafic sont différents et peuvent nécessiter un déploiement sur différentes solutions de stockage.

Les solutions de stockage peuvent être conçues pour optimiser des aspects différents. Un serveur de fichiers NAS créé à partir d’Ubuntu exécutant des disques NVMe locaux sera performant pour des activités à flux unique, comme un client individuel copiant des données du NAS vers un disque local. En revanche, il est possible qu’il ne puisse pas être mis à l’échelle pour des accès simultanés par un grand nombre de clients.

En outre, vous pouvez avoir besoin d’une solution optimisée pour un grand nombre de petits fichiers. Une solution NAS standard, comme Azure NetApp Files, fournit des performances optimales pour ce type de trafic. Mais vous pouvez aussi avoir besoin de traiter puis de stocker des fichiers volumineux, et de réduire le coût que cela représente. Le Stockage Blob Azure avec hiérarchisation offre de la flexibilité dans ces cas, mais il peut ne pas fournir de performances optimales pour une opération de copie à flux unique.

Notez les types de trafic suivants dans votre check-list :

Trafic de flux unique ou trafic de flux multiples
Rapport entre le trafic de lecture et le trafic d’écriture
Taille moyenne des fichiers et nombre moyen de fichiers
Modèles d’accès aléatoires ou séquentiels

Par exemple, votre check-list peut refléter les éléments suivants :

Trafic à flux multiples.
Prédominance du trafic de lecture (75 % contre 25 %).
Taille moyenne des fichiers entre 10 Go et 200 Go. Environ 50 000 fichiers.
Prédominance du trafic séquentiel (80 % contre 20 %).

Vous devez aussi prendre en compte les principales charges de travail que vous prévoyez d’exécuter sur l’architecture. S’il y en a plus d’une ou deux, vérifiez qu’il n’y a pas de divergences significatives dans les exigences.

Emplacement des données

La catégorie suivante rend compte de l’emplacement des données. Avez-vous besoin de conserver localement les données ? Y a-t-il des problèmes liés aux modifications des données pendant que vous exécutez votre charge de travail HPC ? Prévoyez-vous que les modifications de données se produisent seulement localement, seulement dans Azure, ou aux deux emplacements ?

Voici quelques éléments de localité pour votre check-list :

Données sources locales, dans Azure ou les deux ?
Données de résultats locales, dans Azure ou les deux ?
Les charges de travail HPC dans Azure doivent-elles être coordonnées avec les chronologies de modification des données sources ?
- Les chronologies vous aident à déterminer le risque d’avoir des données obsolètes.
Données sensibles/HIPAA ?
- La sensibilité des données permet de déterminer le niveau d’authentification et de chiffrement nécessaire.

La prise en compte de la localité vous aide à déterminer si vous pouvez utiliser la copie, la mise en cache ou la synchronisation comme stratégie de déplacement des données.

Exigences en matière de performances

Vos spécifications en termes de performances doivent ressembler à ceci :

Débit à flux unique (en Go/s)
Débit à flux multiples (en Go/s)
Nombre maximal attendu d’IOPS
Latence moyenne (ms)

Chaque considération affecte les performances. Ces valeurs constituent donc un guide qu’une solution spécifique doit atteindre. Par exemple, vous pouvez avoir une charge de travail HPC qui effectue des créations et des suppressions intensives de fichiers dans le cadre du workflow. Ces opérations peuvent affecter le débit global.

Méthodes d’accès

Prenez en compte le protocole d’accès client requis. Comme nous l’avons vu, il existe différentes versions de NFS (et de SMB, le protocole client de Windows). Si vous prévoyez d’utiliser NFSv4, indiquez clairement les fonctionnalités requises du protocole (comme les listes de contrôle d’accès).

Voici quelques éléments pour votre check-list :

Versions de NFS nécessaires
- Pour v4 : comportements attendus du protocole (listes de contrôle d’accès, chiffrement)
Solution avec système de fichiers parallèle

Capacité totale nécessaire

La capacité de stockage dans Azure est le point suivant à prendre en compte. Elle aide à déterminer le coût global de la solution. Si vous prévoyez de stocker une grande quantité de données pendant une longue période, vous souhaiterez peut-être envisager la hiérarchisation dans le cadre de la solution de stockage. La hiérarchisation offre des options de stockage à moindre coût associées à un stockage plus économique mais à plus hautes performances dans un niveau très chaud.

Quelques éléments pour votre liste :

Capacité totale nécessaire
Capacité totale de niveau très chaud nécessaire
Capacité totale de niveau chaud nécessaire
Capacité totale de niveau froid nécessaire

Remarque sur la capacité de niveau froid : les niveaux Archive combinent des coûts réduits pour le stockage des données avec des coûts de transaction plus élevés pour la récupération des données. De plus, les niveaux Archive ont des temps de récupération longs pour les données. Ils ne doivent pas être considérés comme faisant partie de vos niveaux très chaud ou chaud.

Méthode d’authentification/autorisation

Ajoutez vos exigences d’authentification/autorisation à la check-list. Au minimum, leur ajout garantit que vous incluez les systèmes de prise en charge appropriés, comme un serveur LDAP ou un environnement Active Directory, à votre architecture. Mais si vous devez prendre en charge une fonctionnalité comme le mappage d’UID/GID aux utilisateurs Active Directory, vous devez confirmer que la solution de stockage prend en charge cette fonctionnalité.

Pour votre liste :

Local (UID/GID sur le serveur de fichiers uniquement)
Annuaire (LDAP, Active Directory)
Mappage des UID/GID aux utilisateurs Active Directory ?