Panoramica di Azure Data Lake Storage Gen2 in HDInsight
Azure Data Lake Storage Gen2 usa le funzionalità di base di Azure Data Lake Storage Gen1 e le integra in Archiviazione BLOB di Azure. Queste funzionalità includono un file system compatibile con Hadoop, Microsoft Entra ID ed elenchi di controllo di accesso basati su POSIX. Questa combinazione consente di sfruttare le prestazioni di Azure Data Lake Storage Gen1. Anche usando la gestione a livelli e del ciclo di vita dei dati dell'archiviazione BLOB.
Per altre informazioni su Azure Data Lake Storage Gen2, consultare Introduzione ad Azure Data Lake Storage Gen2.
Funzionalità principali di Azure Data Lake Storage Gen2
Accesso compatibile con Hadoop: in Azure Data Lake Storage Gen2 è possibile gestire i dati e accedervi esattamente come con Hadoop Distributed File System (HDFS). Il driver del file system BLOB di Azure (ABFS) è disponibile in tutti gli ambienti Apache Hadoop, tra cui Azure HDInsight e Azure Databricks. Usarlo per accedere ai dati archiviati in Data Lake Storage Gen2.
Superset di autorizzazioni POSIX: il modello di sicurezza per Data Lake Gen2 supporta completamente l'elenco di controllo di accesso e le autorizzazioni POSIX oltre a una granularità aggiuntiva specifica di Data Lake Storage Gen2. È possibile configurare le impostazioni tramite gli strumenti di amministrazione o framework quali Apache Hive e Apache Spark.
Convenienza: Data Lake Storage Gen2 offre capacità di archiviazione e transazioni a basso costo. I cicli di vita di Archiviazione BLOB di Azure consentono di ridurre i costi modificando le tariffe di fatturazione man mano che procede il ciclo di vita dei dati.
Compatibilità con strumenti di archiviazione BLOB, framework e app: Data Lake Storage Gen2 continua a funzionare con l'ampia gamma di strumenti, framework e app per l'archiviazione BLOB di Azure.
Driver ottimizzato: il driver ABFS è ottimizzato appositamente per l'analisi dei Big Data. Le API REST corrispondenti vengono rilevate tramite l'endpoint del file system distribuito (DFS), ovvero dfs.core.windows.net.
Novità di Azure Data Lake Storage Gen2
Identità gestite per un accesso sicuro ai file
Azure HDInsight usa identità gestite per proteggere l'accesso del cluster ai file in Azure Data Lake Storage Gen2. Le identità gestite sono una funzionalità di Microsoft Entra ID che fornisce ai servizi di Azure un set di credenziali gestite automaticamente. Queste credenziali possono essere usate per eseguire l'autenticazione per qualsiasi servizio che supporti l'autenticazione Active Directory. L'uso di identità gestite non richiede l'archiviazione delle credenziali in file di codice o di configurazione.
Per altre informazioni, vedere Identità gestite per le risorse di Azure.
Driver ABFS
Le applicazioni Apache Hadoop prevedono in modo nativo di leggere e scrivere i dati dallo spazio di archiviazione su disco locale. Un driver del file system Hadoop come ABFS consente alle applicazioni Hadoop di lavorare con l'archiviazione cloud. Funziona simulando le normali operazioni del file system Hadoop. Il driver converte questi comandi ricevuti dall'applicazione in operazioni riconosciute dalla piattaforma di archiviazione nel cloud effettiva.
Nelle versioni precedenti il driver del file system Hadoop converte tutte le operazioni del file system in chiamate API REST di Archiviazione di Azure sul lato client. E quindi richiamato l'API REST. Questa conversione lato client tuttavia restituisce più chiamate API REST per una singola operazione di file system come la ridenominazione di un file. ABFS ha spostato la logica del file system Hadoop dal lato client al lato server. L'API di Azure Data Lake Storage Gen2 viene ora eseguita in parallelo con l'API BLOB. Questa migrazione comporta un miglioramento delle prestazioni perché ora le operazioni comuni del file system Hadoop possono essere eseguite con una chiamata API REST.
Per ulteriori informazioni, consultare Driver ABFS (Azure Blob File System): un driver di Archiviazione di Azure dedicato per Hadoop.
Schema URI di Azure Data Lake Storage Gen2
Azure Data Lake Storage Gen2 usa un nuovo schema URI per accedere ai file in Archiviazione di Azure da HDInsight:
abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>
Lo schema URI fornisce l'accesso crittografato SSL.
<FILE_SYSTEM_NAME>
identifica il percorso del file system di Data Lake Storage Gen2.
<ACCOUNT_NAME>
identifica il nome dell'account di Archiviazione di Azure. È necessario specificare un nome di dominio completo (FQDN).
<PATH>
è il nome del percorso HDFS di file o directory.
Se i valori per <FILE_SYSTEM_NAME>
e <ACCOUNT_NAME>
non vengono specificati, viene usato il file system predefinito. Per i file presenti nel file system predefinito, usare un percorso relativo o un percorso assoluto. Ad esempio, è possibile fare riferimento al file hadoop-mapreduce-examples.jar
incluso nei cluster HDInsight usando uno dei percorsi seguenti:
abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar
Nota
Nei cluster HDInsight versione 2.1 e 1.6 il nome del file è hadoop-examples.jar
. Quando si usano file al di fuori di HDInsight, la maggior parte delle utilità non riconosce il formato ABFS, ma richiede invece un formato di percorso di base, ad esempio example/jars/hadoop-mapreduce-examples.jar
.
Per altre informazioni, vedere Usare l'URI di Azure Data Lake Storage Gen2.