Azure Data Lake Storage Gen2 leren kennen
Een data lake is een opslagplaats voor gegevens die zijn opgeslagen in de natuurlijke indeling, meestal als blobs of bestanden. Azure Data Lake Storage is een uitgebreide, zeer schaalbare, veilige en rendabele Data Lake-oplossing voor hoogwaardige analyses die zijn ingebouwd in Azure.
Azure Data Lake Storage combineert een bestandssysteem met een enorm opslagplatform om u te helpen snel inzicht in uw gegevens te krijgen. Data Lake Storage bouwt voort op azure Blob Storage-mogelijkheden om deze specifiek te optimaliseren voor analyseworkloads. Deze integratie zorgt voor analyseprestaties, opslaglagen voor Blob-opslag en beheermogelijkheden voor de levensduur van gegevens, en de mogelijkheden voor maximale beschikbaarheid, beveiliging en duurzaamheid van Azure Storage.
Vergoedingen
Data Lake Storage is ontworpen voor deze verscheidenheid aan gegevens en het volume aan gegevens op exabyteschaal, terwijl honderden gigabytes aan doorvoer veilig worden verwerkt. Hiermee kunt u Data Lake Storage Gen2 gebruiken als basis voor zowel realtime- als batch-oplossingen.
Hadoop-compatibele toegang
Een voordeel van Data Lake Storage is dat u de gegevens kunt behandelen alsof deze zijn opgeslagen in een Hadoop Distributed File System (HDFS). Met deze functie kunt u de gegevens op één locatie opslaan en openen via computingtechnologieën, zoals Azure Databricks, Azure HDInsight en Azure Synapse Analytics, zonder dat de gegevens tussen verschillende omgevingen hoeven te worden verplaatst. De data engineer heeft ook de mogelijkheid om opslagmechanismen zoals de parquet-indeling te gebruiken, die zeer gecomprimeerd is en goed presteert op meerdere platforms met behulp van een interne kolomopslag.
Beveiliging
Data Lake Storage ondersteunt toegangsbeheerlijsten (ACL's) en POSIX-machtigingen (Portable Operating System Interface) die de machtigingen van de bovenliggende map niet overnemen. U kunt zelfs machtigingen instellen op map- of bestandsniveau voor de gegevens die zijn opgeslagen in de Data Lake, wat een veel veiliger opslagsysteem biedt. Deze beveiliging kan worden geconfigureerd via technologieën zoals Hive en Spark of hulpprogramma's zoals Azure Storage Explorer, die wordt uitgevoerd in Windows, macOS en Linux. Alle opgeslagen gegevens worden in ruststand versleuteld via door Microsoft of klanten beheerde sleutels.
Prestaties
Azure Data Lake Storage organiseert de opgeslagen gegevens, net als een bestandssysteem, in een hiërarchie of in mappen en submappen voor eenvoudigere navigatie. Hiermee is minder rekenkracht vereist voor de verwerking van gegevens, waardoor minder tijd en geld nodig zijn.
Gegevensredundantie
Data Lake Storage maakt gebruik van de Azure Blob-replicatiemodellen die gegevensredundantie bieden in één datacenter met lokaal redundante opslag (LRS) of naar een secundaire regio met behulp van de optie Voor geografisch redundante opslag (GRS). Deze functie garandeert dat uw gegevens altijd beschikbaar zijn én worden beveiligd als zich een ramp voordoet.
Tip
Wanneer een data lake wordt gepland, moet een data engineer goed nadenken over structuur, gegevensbeheer en beveiliging. Hierbij moet rekening worden gehouden met factoren die invloed kunnen hebben op meerstructuur en organisatie, zoals:
- Typen gegevens die moeten worden opgeslagen
- Hoe de gegevens worden getransformeerd
- Wie moet toegang hebben tot de gegevens
- Wat zijn de typische toegangspatronen?
Met deze aanpak kunt u bepalen hoe u toegangsbeheer in uw meer kunt plannen. Data engineers moeten proactief zijn om ervoor te zorgen dat het lake niet het spreekwoordelijke gegevensmoeland wordt dat niet toegankelijk en niet nuttig is voor gebruikers vanwege het gebrek aan gegevensbeheer- en gegevenskwaliteitsmaatregelen. Het opzetten van een basislijn en de volgende best practices voor Azure Data Lake zorgt voor een goede en robuuste implementatie waarmee de organisatie kan groeien en inzicht kan krijgen om meer te bereiken.