Dela via


Översikt över Azure Data Lake Storage Gen2 i HDInsight

Azure Data Lake Storage Gen2 tar viktiga funktioner från Azure Data Lake Storage Gen1 och integrerar dem i Azure Blob Storage. Dessa funktioner omfattar ett filsystem som är kompatibelt med Hadoop, Microsoft Entra ID och POSIX-baserade åtkomstkontrollistor (ACL). Med den här kombinationen kan du dra nytta av prestanda för Azure Data Lake Storage Gen1. Samtidigt som du använder nivåindelning och datalivscykelhantering för Blob Storage.

Mer information om Azure Data Lake Storage Gen2 finns i Introduktion till Azure Data Lake Storage Gen2.

Grundläggande funktioner i Azure Data Lake Storage Gen2

  • Åtkomst som är kompatibel med Hadoop: I Azure Data Lake Storage Gen2 kan du hantera och komma åt data precis som med ett Hadoop Distributed File System (HDFS). Drivrutinen för Azure Blob File System (ABFS) är tillgänglig i alla Apache Hadoop-miljöer, inklusive Azure HDInsight och Azure Databricks. Använd ABFS för att komma åt data som lagras i Data Lake Storage Gen2.

  • En supermängd POSIX-behörigheter: Säkerhetsmodellen för Data Lake Gen2 stöder ACL- och POSIX-behörigheter tillsammans med lite extra kornighet som är specifik för Data Lake Storage Gen2. Inställningar kan konfigureras via administratörsverktyg eller ramverk som Apache Hive och Apache Spark.

  • Kostnadseffektivitet: Data Lake Storage Gen2 erbjuder lagringskapacitet och transaktioner till låg kostnad. Livscykeln för Azure Blob Storage hjälper till att sänka kostnaderna genom att justera faktureringspriserna när data flyttas genom livscykeln.

  • Kompatibilitet med Blob Storage-verktyg, ramverk och appar: Data Lake Storage Gen2 fortsätter att fungera med en mängd olika verktyg, ramverk och program för Blob Storage.

  • Optimerad drivrutin: ABFS-drivrutinen är särskilt optimerad för stordataanalys. Motsvarande REST-API:er visas via DFS-slutpunkten (distribuerat filsystem), dfs.core.windows.net.

Nyheter för Azure Data Lake Storage Gen 2

Hanterade identiteter för säker filåtkomst

Azure HDInsight använder hanterade identiteter för att skydda klusteråtkomst till filer i Azure Data Lake Storage Gen2. Hanterade identiteter är en funktion i Microsoft Entra-ID som tillhandahåller Azure-tjänster med en uppsättning automatiskt hanterade autentiseringsuppgifter. Dessa autentiseringsuppgifter kan användas för att autentisera till alla tjänster som stöder Active Directory-autentisering. Om du använder hanterade identiteter behöver du inte lagra autentiseringsuppgifter i kod- eller konfigurationsfiler.

Mer information finns i Hanterade identiteter för Azure-resurser.

Drivrutin för Azure Blob File System

Apache Hadoop-program förväntar sig att läsa och skriva data från lokal disklagring. En Hadoop-filsystemdrivrutin som ABFS gör att Hadoop-program kan arbeta med molnlagring. Fungerar genom att emulera vanliga Hadoop-filsystemåtgärder. Drivrutinen konverterar de kommandon som tas emot från programmet till åtgärder som den faktiska molnlagringsplattformen förstår.

Tidigare konverterade Hadoop-filsystemdrivrutinen alla filsystemåtgärder till AZURE Storage REST API-anrop på klientsidan. Och anropade sedan REST-API:et. Den här konverteringen på klientsidan resulterade dock i flera REST API-anrop för en enda filsystemåtgärd som att byta namn på en fil. ABFS har flyttat Hadoop-filsystemlogik från klientsidan till serversidan. Azure Data Lake Storage Gen2-API:et körs nu parallellt med Blob-API:et. Den här migreringen förbättrar prestandan eftersom nu vanliga Hadoop-filsystemåtgärder kan köras med ett REST API-anrop.

Mer information finns i Drivrutinen för Azure Blob Filesystem (ABFS): En dedikerad Azure Storage-drivrutin för Hadoop.

URI-schema för Azure Data Lake Storage Gen 2

Azure Data Lake Storage Gen2 använder ett nytt URI-schema för att komma åt filer i Azure Storage från HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

URI-schemat ger SSL-krypterad åtkomst.

<FILE_SYSTEM_NAME> identifierar sökvägen till filsystemet Data Lake Storage Gen2.

<ACCOUNT_NAME> identifierar Namnet på Azure Storage-kontot. Ett fullständigt kvalificerat domännamn (FQDN) krävs.

<PATH> är namnet på filen eller katalogens HDFS-sökväg.

Om värden för <FILE_SYSTEM_NAME> och <ACCOUNT_NAME> inte anges används standardfilsystemet. För filerna i standardfilsystemet använder du en relativ sökväg eller en absolut sökväg. Till exempel hadoop-mapreduce-examples.jar kan filen som medföljer HDInsight-kluster refereras till med någon av följande sökvägar:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Kommentar

Filnamnet finns hadoop-examples.jar i HDInsight-versionerna 2.1 och 1.6-kluster. När du arbetar med filer utanför HDInsight upptäcker du att de flesta verktyg inte känner igen ABFS-formatet utan i stället förväntar sig ett grundläggande sökvägsformat, till exempel example/jars/hadoop-mapreduce-examples.jar.

Mer information finns i Använda Azure Data Lake Storage Gen2 URI.

Nästa steg