Eseguire la migrazione di cluster Apache Hadoop locali in Azure HDInsight - Procedure consigliate per DevOps e sicurezza
Questo articolo include consigli per la sicurezza e DevOps in sistemi Azure HDInsight. L'articolo fa parte di una serie di documenti che descrivono le procedure consigliate per facilitare la migrazione di sistemi Apache Hadoop locali ad Azure HDInsight.
Proteggere e controllare il cluster con Enterprise Security Package
Il pacchetto Enterprise Security Package (ESP) supporta l'autenticazione basata su Active Directory, il supporto multiutente e il controllo degli accessi in base al ruolo. Con l'opzione ESP scelta, il cluster HDInsight viene aggiunto al dominio di Active Directory e l'amministratore dell'azienda può configurare il controllo degli accessi in base al ruolo per la sicurezza di Apache Hive usando Apache Ranger. L'amministratore può anche controllare l'accesso ai dati da parte dei dipendenti e qualsiasi modifica apportata ai criteri di controllo di accesso.
Le funzionalità ESP sono disponibili nei seguenti tipi di cluster: Apache Hadoop, Apache Spark, Apache HBase, Apache Kafka e Interactive Query (Hive LLAP).
Usare la procedura seguente per distribuire il cluster HDInsight aggiunto al dominio:
Distribuire Microsoft Entra ID passando il nome di dominio.
Distribuire Microsoft Entra Domain Services.
Creare la rete virtuale e la subnet obbligatorie.
Distribuire una VM nella rete virtuale per gestire Microsoft Entra Domain Services.
Aggiungere la macchina virtuale al dominio.
Installare Active Directory e gli strumenti DNS.
Chiedere all'amministratore di Microsoft Entra Domain Services di creare un'unità organizzativa (OU).
Abilitare LDAPS per Microsoft Entra Domain Services.
Creare un account del servizio in Microsoft Entra ID con autorizzazione di amministratore di lettura e scrittura delegata per l'unità organizzativa. L'account del servizio può quindi aggiungere le macchine virtuali al dominio e inserire entità macchina virtuale all'interno dell'unità organizzativa. Può anche creare entità servizio nell'unità organizzativa che si specifica quando si crea il cluster.
Nota
L'account del servizio non deve necessariamente essere l'account amministratore del dominio di Active Directory.
Distribuire il cluster ESP HDInsight impostando i parametri seguenti:
Parametro Descrizione Nome di dominio Il nome di dominio associato a Microsoft Entra Domain Services. Nome utente di dominio L'account del servizio nel dominio gestito dal controller di dominio di Microsoft Entra Domain Services creato nella sezione precedente, ad esempio hdiadmin@contoso.onmicrosoft.com
. Questo utente del dominio diventerà l'amministratore del cluster HDInsight.Password del dominio password dell'account del servizio. Unità organizzativa nome distinto dell'unità organizzativa (OU) che si desidera usare con il cluster HDInsight, ad esempio: OU=HDInsightOU,DC=contoso,DC=onmicrosoft,DC=com
. Se questa unità organizzativa non esiste, il cluster HDInsight prova a crearne una usando i privilegi dell'account del servizio.URL LDAPS Ad esempio ldaps://contoso.onmicrosoft.com:636
.Gruppo utenti di accesso gruppi di sicurezza i cui utenti si vogliono sincronizzare con il cluster, ad esempio: HiveUsers
. Per specificare più gruppi utenti, separarli con punti e virgola (;). Il gruppo o i gruppi devono essere presenti nella directory prima che venga creato il cluster ESP.
Per altre informazioni, vedere gli articoli seguenti:
- Introduzione alla sicurezza Apache Hadoop con i cluster HDInsight aggiunti al dominio
- Pianificare cluster Apache Hadoop aggiunti a un dominio di Azure in HDInsight
- Configurare un cluster HDInsight aggiunto al dominio con Microsoft Entra Domain Services
- Sincronizzare gli utenti di Microsoft Entra con un cluster HDInsight
- Configurare criteri Apache Hive in HDInsight aggiunto al dominio
- Eseguire Apache Oozie in cluster HDInsight Hadoop aggiunti a un dominio
Implementare la sicurezza aziendale end-to-end
È possibile implementare la sicurezza aziendale end-to-end usando i controlli seguenti:
Pipeline di dati privata e protetta (sicurezza a livello perimetrale): la sicurezza a livello perimetrale può essere conseguita attraverso reti virtuali di Azure, gruppi di sicurezza di rete e il servizio gateway.
Autenticazione e autorizzazione per l'accesso ai dati: creare un cluster HDInsight aggiunto al dominio usando Microsoft Entra Domain Services. (Enterprise Security Package). - Usare Ambari per fornire l'accesso in base al ruolo alle risorse del cluster per gli utenti di Active Directory. - Usare Apache Ranger per impostare i criteri di controllo di accesso per Hive a livello di tabella/colonna/riga. - L'accesso SSH al cluster può essere limitato al solo amministratore.
Controllo: visualizzare e segnalare tutti gli accessi ai dati e alle risorse del cluster HDInsight. - Visualizzare e segnalare tutte le modifiche apportate ai criteri di controllo di accesso.
Crittografia: crittografia lato server trasparente con chiavi gestite da Microsoft o dal cliente. - Crittografia di dati in transito usando la crittografia lato client, HTTPS e TLS.
Per altre informazioni, vedere gli articoli seguenti:
- Panoramica di Reti virtuali di Azure
- Panoramica dei gruppi di sicurezza di rete di Azure
- Peering di rete virtuale di Azure
- Guida alla sicurezza di Archiviazione di Azure
- Crittografia del servizio di archiviazione di Azure a riposo
Usare le funzionalità di monitoraggio e di invio di avvisi
Per altre informazioni, vedere l'articolo:
Panoramica di Monitoraggio di Azure
Aggiornare i cluster
Eseguire sempre l'aggiornamento alla versione più recente di HDInsight per usufruire dei vantaggi offerti dalle funzionalità più recenti. La procedura seguente consente di aggiornare il cluster alla versione più recente:
- Creare un nuovo cluster HDInsight TEST usando la versione più recente disponibile di HDInsight.
- Eseguire i test sul nuovo cluster per assicurarsi che i processi e i carichi di lavoro vengano eseguiti come previsto.
- Modificare i processi, le applicazioni o i carichi di lavoro in base alle esigenze.
- Eseguire il backup tutti i dati temporanei archiviati localmente sui nodi del cluster,
- Eliminare il cluster esistente.
- Creare un cluster con la versione più recente di HDInsight nella stessa subnet di rete virtuale, usando gli stessi dati e lo stesso archivio di metadati predefiniti del cluster precedente.
- Importare i dati temporanei di cui è stata eseguita una copia di backup.
- Avviare processi/continuare l'elaborazione con il nuovo cluster.
Per altre informazioni, vedere l'articolo Eseguire l'aggiornamento del cluster HDInsight a una versione.
Applicare patch ai sistemi operativi del cluster
Per altre informazioni, vedere l'articolo Applicazione di patch del sistema operativo per HDInsight.
Dopo la migrazione
- Monitorare e aggiornare le applicazioni: apportare in modo iterativo le modifiche necessarie a processi, elaborazioni e script.
- Eseguire test: eseguire in modo iterativo test sul funzionamento e sulle prestazioni.
- Ottimizzare: risolvere tutti i problemi di prestazioni in base ai risultati dei test precedenti e quindi eseguire di nuovo i test per verificare se le prestazioni sono migliorate.
Passaggi successivi
Altre informazioni su HDInsight 4.0.