Förstå Azure Data Lake Storage Gen2

Slutförd

En data lake är en lagringsplats med data som lagras i ett naturligt format, vanligtvis som blobar eller filer. Azure Data Lake Storage är en omfattande, massivt skalbar, säker och kostnadseffektiv datasjölösning för analys med höga prestanda som är inbyggd i Azure.

Diagram som representerar filer i Azure Data Lake Storage Gen2 som används av stordatatekniker.

Azure Data Lake Storage kombinerar ett filsystem med en lagringsplattform för att du snabbt ska kunna identifiera information i dina data. Data Lake Storage bygger på Azure Blob Storage-funktioner för att optimera den specifikt för analysarbetsbelastningar. Integrationen ger analysprestanda, nivåindelning och hantering av livscykelfunktioner i bloblagringen, samt funktioner med hög tillgänglighet, säkerhet och hållbarhet i Azure Storage.

Förmåner

Data Lake Storage är utformat för att hantera den här variationen och mängden data i exabyteskala samtidigt som hundratals gigabyte dataflöde hanteras på ett säkert sätt. Det innebär att du kan använda Data Lake Storage Gen2 som grund för både realtids- och batchlösningar.

Hadoop-kompatibel åtkomst

En fördel med Data Lake Storage är att du kan behandla data som om de lagras i ett Hadoop Distributed File System (HDFS). Med den här funktionen kan du lagra data på en plats och komma åt den med beräkningstekniker som Azure Databricks, Azure HDInsight och Azure Synapse Analytics utan att behöva flytta data mellan olika miljöer. Datateknikern har också möjlighet att använda lagringsmekanismer som parquet-formatet, som är mycket komprimerat och fungerar bra på flera plattformar med hjälp av en intern kolumnlagring.

Säkerhet

Data Lake Storage stöder behörigheter för åtkomstkontrollistor (ACL) och POSIX (Portable Operating System Interface) som inte ärver behörigheterna för den överordnade katalogen. I själva verket kan du ange behörigheter på katalognivå eller filnivå för data som lagras i datasjön, vilket ger ett mycket säkrare lagringssystem. Den här säkerheten kan konfigureras via tekniker som Hive och Spark eller verktyg som Azure Storage Explorer, som körs i Windows, macOS och Linux. Alla data som lagras i vila krypteras med Microsoft- eller kundhanterade nycklar.

Prestanda

Azure Data Lake Storage organiserar lagrade data i en hierarki av kataloger och underkataloger, ungefär som ett filsystem, för att underlätta navigeringen. Det innebär att databehandlingen kräver mindre datorresurser, vilket minskar både tidsåtgången och kostnaden.

Dataredundans

Data Lake Storage drar nytta av Azure Blob-replikeringsmodellerna som tillhandahåller dataredundans i ett enda datacenter med lokalt redundant lagring (LRS) eller till en sekundär region med hjälp av alternativet Geo-redundant lagring (GRS). Den här funktionen ser till att dina data alltid är tillgängliga och skyddade om en katastrof inträffar.

Dricks

När du planerar för en datasjö bör en datatekniker tänka på struktur, datastyrning och säkerhet. Detta bör omfatta överväganden av faktorer som kan påverka sjöstrukturen och organisationen, till exempel:

  • Typer av data som ska lagras
  • Hur data ska transformeras
  • Vem som ska komma åt data
  • Vilka är de typiska åtkomstmönstren

Den här metoden hjälper dig att avgöra hur du planerar för styrning av åtkomstkontroll över din sjö. Datatekniker bör vara proaktiva när det gäller att se till att sjön inte blir det berömda dataträsket som blir otillgängligt och icke-användbart för användare på grund av bristen på datastyrning och datakvalitetsåtgärder. Genom att upprätta en baslinje och följa bästa praxis för Azure Data Lake kan du säkerställa en korrekt och robust implementering som gör det möjligt för organisationen att växa och få insikter för att uppnå mer.