Riepilogo
In questo modulo sono stati illustrati i fattori essenziali che influiscono sulla scelta della risorsa di archiviazione HPC in Azure. È ora necessario combinare queste informazioni e creare uno strumento che può essere usato per valutare le diverse opzioni di archiviazione di Azure.
Si creerà un elenco di controllo che include le considerazioni principali sull'archiviazione. È possibile che ci si domandi perché sia necessario un elenco di controllo, in particolare se si è stati responsabili della supervisione dell'ambiente di archiviazione corrente per molto tempo. L'obiettivo consiste nel consolidare le informazioni per altri stakeholder, inclusi i membri del team di Azure e i partner con cui è possibile che si collabori. L'elenco di controllo consente di semplificare il processo decisionale e di ridurre al minimo eventuali incomprensioni in merito alle capacità di una soluzione di archiviazione specifica o all'assenza di capacità.
L'elenco di controllo viene creato in base all'elenco seguente di considerazioni.
Distribuzione del traffico del carico di lavoro
Occorre prendere in considerazione i tipi di traffico che vengono generati ed elaborati dall'ambiente HPC. Questo passaggio è particolarmente importante se si prevede di eseguire più carichi di lavoro e di usare le risorse di archiviazione per altre finalità.
È ad esempio possibile che il carico di lavoro HPC legga dati sequenziali da un file di grandi dimensioni, tra cui un asset multimediale da un processo di rendering o un file di sequenziamento genomico, da un numero elevato di computer HPC. È allo stesso tempo possibile che sia necessario gestire un database, ad esempio per l'interazione con l'utilità di pianificazione HPC. I tipi di traffico sono diversi e potrebbe essere necessario distribuirli in diverse soluzioni di archiviazione.
È possibile progettare soluzioni di archiviazione ottimizzate per diversi aspetti. Un archiviatore NAS creato da Ubuntu che esegue dischi NVMe locali risulterebbe ottimale per attività a flusso singolo, ad esempio un singolo client che copia dati da NAS a un disco locale. È tuttavia possibile che non possa essere dimensionato per l'accesso simultaneo da parte di un numero elevato di client.
Potrebbe essere inoltre necessaria una soluzione ottimizzata per numeri elevati di file di piccole dimensioni. Una soluzione NAS tradizionale, ad esempio Azure NetApp Files, fornisce prestazioni ottimali per questo tipo di traffico. È tuttavia possibile che sia necessario elaborare e quindi archiviare file di grandi dimensioni e ridurre al minimo il costo correlato. Archiviazione BLOB di Azure con suddivisione in livelli offre la flessibilità necessaria in questi casi, ma è possibile che non offra prestazioni eccellenti per un'operazione di copia a singolo flusso.
Registrare i tipi di traffico seguenti nell'elenco di controllo:
- Confronto tra traffico a singolo flusso e traffico a più flussi
- Rapporto tra traffico di lettura e traffico di scrittura
- Dimensioni e numeri medi dei file
- Confronto tra criteri di accesso casuali e sequenziali
È ad esempio possibile che l'elenco di controllo rispecchi gli elementi seguenti:
- Traffico con più flussi.
- Quantità elevata di operazioni di lettura (75% rispetto a 25%).
- Dimensioni medie del file comprese tra 10 GB e 200 GB. Circa 50.000 file.
- Quantità elevata di operazioni sequenziali (80% rispetto a 20%).
È consigliabile prendere in considerazione anche i carichi di lavoro principali che si prevede di eseguire nell'architettura. Se sono più di uno o due, per assicurarsi che non siano presenti divergenze significative a livello di requisiti.
Località dei dati
La categoria successiva prende in considerazione la posizione dei dati. È necessario conservare i dati in locale? Le modifiche ai dati durante l'esecuzione del carico di lavoro HPC comportano problematiche? Si prevede di eseguire le modifiche solo in locale, solo in Azure o in entrambe le posizioni?
Di seguito sono indicati alcuni elementi relativi alla località per l'elenco di controllo:
- Dati di origine in locale, in Azure o in entrambe le posizioni?
- Dati dei risultati in locale, in Azure o in entrambe le posizioni?
- I carichi di lavoro HPC in Azure verranno coordinati alle sequenze temporali delle modifiche dei dati di origine?
- Le sequenze temporali risultano utili per definire il rischio dei dati obsoleti.
- Dati sensibili/HIPAA?
- La riservatezza dei dati contribuisce a definire il livello di autenticazione e di crittografia necessario.
Il riconoscimento della località contribuisce a determinare se è possibile usare la copia, la memorizzazione nella cache o la sincronizzazione come strategia di spostamento dati.
Requisiti per le prestazioni
I requisiti per le prestazioni devono essere analoghi ai seguenti:
- Velocità effettiva a singolo flusso (in GBps)
- Velocità effettiva a più flussi (in GBps)
- Operazioni di I/O al secondo massime previste
- Latenza media (ms)
Ogni considerazione influisce sulle prestazioni, quindi questi numeri costituiscono una guida per gli obiettivi che una soluzione specifica dovrebbe realizzare. È ad esempio possibile che sia presente un carico di lavoro HPC che esegue un numero elevato di operazioni di creazione ed eliminazione di file come parte del flusso di lavoro. Queste operazioni potrebbero influire sulla velocità effettiva complessiva.
Metodi di accesso
Occorre prendere in considerazione il protocollo di accesso client necessario. Come illustrato, esistono diverse versioni di NFS e di SMB, il protocollo client Windows. Se si prevede di usare NFSv4, occorre definire in modo chiaro le funzionalità del protocollo necessarie, ad esempio gli elenchi di controllo di accesso.
Di seguito sono riportati alcuni elementi per l'elenco di controllo:
- Versioni NFS obbligatorie
- Se si usa v4, comportamenti previsti del protocollo (elenchi di controllo di accesso, crittografia)
- Soluzione file system parallela
Requisito per la capacità totale
La capacità di archiviazione in Azure è la considerazione successiva. Contribuisce a definire il costo complessivo della soluzione. Se si prevede di archiviare una quantità elevata di dati per molto tempo, è consigliabile prendere in considerazione la suddivisione in livelli come parte della soluzione di archiviazione. La suddivisione in livelli offre opzioni di archiviazione a costo più basso combinate con risorse di archiviazione a costo più elevato ma con prestazioni superiori in un livello di accesso frequente.
Di seguito sono riportati alcuni elementi per l'elenco:
- Capacità totale necessaria
- Capacità totale necessaria per il livello di accesso frequente
- Capacità totale necessaria per il livello di accesso abbastanza frequente
- Capacità totale necessaria per il livello di accesso sporadico
Per quanto riguarda la capacità del livello di accesso sporadico, è necessario notare che i livelli archivio combinano costi più bassi per l'archiviazione dei dati con costi di transazione più elevati per il recupero dei dati. I livelli archivio presentano inoltre tempi di recupero lunghi per i dati. È consigliabile non prenderli in considerazione come parte dei livelli di accesso frequente o di accesso abbastanza frequente.
Metodo di autenticazione/autorizzazione
Aggiungere i requisiti di autenticazione/autorizzazione all'elenco di controllo. L'aggiunta di questi requisiti consente come minimo di assicurare l'inclusione di sistemi di supporto appropriati, tra cui un server LDAP o un ambiente di Active Directory, nell'architettura. Se tuttavia è necessario supportare funzionalità come il mapping di ID utente/identificatore di gruppo agli utenti di Active Directory, occorrerà confermare che la soluzione di archiviazione supporti tale capacità.
Elementi da includere nell'elenco:
- Locale (ID utente/identificatore di gruppo solo in file server)
- Directory (LDAP, Active Directory)
- Mapping di ID utente/identificatore di gruppo a utenti di Active Directory?
Altre risorse
RFC NFS IETF:
- RFC 1813: specifica del protocollo NFS versione 3
- RFC 2203: specifica del protocollo RPCSEC_GSS
- RFC 3530: protocollo NFS (Network File System) versione 4
- RFC 5661: protocollo NFS (Network File System) versione 4 - versione secondaria 1
- RFC 5331: RPC: specifica del protocollo RPC (Remote Procedure Call) versione 2