Introduktion till klusterlagring
Viktig
Azure HDInsight på AKS drogs tillbaka den 31 januari 2025. Läs mer genom det här meddelandet.
Du måste migrera dina arbetsbelastningar till Microsoft Fabric- eller en motsvarande Azure-produkt för att undvika plötsliga uppsägningar av dina arbetsbelastningar.
Viktig
Den här funktionen är för närvarande i förhandsversion. De kompletterande användningsvillkoren för Microsoft Azures förhandsversioner innehåller fler juridiska villkor som gäller för Azure-funktioner som är i betaversion, förhandsversion eller på annat sätt ännu inte har släppts i den allmänna tillgängligheten. Information om den här specifika förhandsversionen finns i Azure HDInsight på AKS-förhandsversionsinformation. För frågor eller funktionsförslag, skicka en begäran på AskHDInsight med detaljerna och följ oss för fler uppdateringar från Azure HDInsight Community.
Azure HDInsight på AKS kan sömlöst integreras med Azure Storage, vilket är en allmän lagringslösning som fungerar bra med många andra Azure-tjänster. Azure Data Lake Storage Gen2 (ADLS Gen 2) är standardfilsystemet för klustren.
Lagringskontot kan användas som standardplats för data, klusterloggar och andra utdata som genereras under klusteråtgärden. Det kan också vara en standardlagring för Hive-katalogen som är beroende av klustertypen.
Mer information finns i Introduktion till Azure Data Lake Storage Gen2.
Hanterade identiteter för säker filåtkomst
Azure HDInsight på AKS använder hanterade identiteter (MSI) för att skydda klusteråtkomst till filer i Azure Data Lake Storage Gen2. Hanterad identitet är en funktion i Microsoft Entra-ID som tillhandahåller Azure-tjänster med en uppsättning automatiskt hanterade autentiseringsuppgifter. Dessa autentiseringsuppgifter kan användas för att autentisera till alla tjänster som stöder Active Directory-autentisering. Dessutom kräver hanterade identiteter inte att du lagrar autentiseringsuppgifter i kod- eller konfigurationsfiler.
När du i Azure HDInsight på AKS väljer en hanterad identitet och lagring vid skapandet av klustret kan den hanterade identiteten samarbeta smidigt med lagring för datahantering, förutsatt att Storage Blob Data Owner rollen har tilldelats den användartilldelade MSI.
I följande tabell beskrivs de lagringsalternativ som stöds för Azure HDInsight på AKS (offentlig förhandsversion):
Klustertyp | Lagring som stöds | Samband | Roll i lagring |
---|---|---|---|
Trino, Apache Flink och Apache Spark | ADLS Gen2 | Klusteranvändartilldelad hanterad identitet (MSI) | Den användartilldelade MSI:en måste ha Storage Blob Data Owner rollen för lagringskontot. |
Not
Om du vill dela ett lagringskonto mellan flera kluster kan du helt enkelt tilldela den klusterspecifika användartilldelade MSI-rollen "Storage Blob Data Owner" på det delade lagringskontot. Lär dig hur du tilldela en roll.
Därefter kan du använda den fullständiga lagringsvägen abfs://
för att komma åt data via dina program.
Mer information finns i Hanterade identiteter för Azure-resurser.
Lär dig hur du skapa ett ADLS Gen2-konto.
Azure HDInsight i AKS-lagringsarkitektur
Följande diagram innehåller en abstrakt vy över Azure HDInsight i AKS-arkitekturen i Azure Storage.
Lagringshantering
För närvarande har Azure HDInsight på AKS inte stöd för lagringskonton med mjuk borttagning aktiverat, se till att du inaktiverar mjuk borttagning för ditt lagringskonto.