Delen via


Azure Blob Storage upgraden met azure Data Lake Storage-mogelijkheden

Dit artikel helpt u bij het inschakelen van een hiërarchische naamruimte en het ontgrendelen van mogelijkheden zoals beveiliging op bestand- en mapniveau en snellere bewerkingen. Deze mogelijkheden worden veel gebruikt door workloads voor big data-analyses en worden gezamenlijk aangeduid als Azure Data Lake Storage. De populairste mogelijkheden zijn:

  • Hogere doorvoer, invoer-/uitvoerbewerkingen per seconde (IOPS) en opslagcapaciteitslimieten.

  • Snellere bewerkingen (zoals naamswijzigingsbewerkingen) omdat u kunt werken op afzonderlijke knooppunt-URI's.

  • Efficiënte query-engine die alleen de gegevens overdraagt die nodig zijn om een bepaalde bewerking uit te voeren.

  • Beveiliging op container-, map- en bestandsniveau.

Zie Inleiding tot Azure Data Lake Storage voor meer informatie.

Dit artikel helpt u bij het evalueren van de impact op workloads, toepassingen, kosten, serviceintegraties, hulpprogramma's, functies en documentatie. Zorg ervoor dat u deze gevolgen zorgvuldig bekijkt. Als u klaar bent om een account te upgraden, raadpleegt u deze stapsgewijze handleiding: Azure Blob Storage upgraden met de mogelijkheden van Azure Data Lake Storage.

Belangrijk

Een upgrade is definitief. U kunt uw account niet meer terugdraaien nadat u de upgrade hebt uitgevoerd. U wordt aangeraden uw upgrade in een niet-productieomgeving te valideren.

Invloed op beschikbaarheid

Zorg ervoor dat u enige downtime in uw account plant terwijl het upgradeproces is voltooid. Schrijfbewerkingen worden uitgeschakeld terwijl uw account wordt bijgewerkt. Leesbewerkingen zijn niet uitgeschakeld, maar we raden u ten zeerste aan leesbewerkingen op te schorten, omdat deze bewerkingen het upgradeproces mogelijk stabiliseren.

Impact op workloads en toepassingen

Blob-API's werken met accounts die een hiërarchische naamruimte hebben, zodat de meeste toepassingen die met uw account werken door deze API's te gebruiken, zonder aanpassingen te blijven werken.

Zie Bekende problemen met Blob Storage-API's voor een volledige lijst met problemen en tijdelijke oplossingen.

Hadoop-workloads die gebruikmaken van het WASB-stuurprogramma (Windows Azure Storage Blob Driver), moeten worden gewijzigd om het ABFS-stuurprogramma (Azure Blob File System) te kunnen gebruiken. In tegenstelling tot het WASB-stuurprogramma dat aanvragen indient naar het Blob-service-eindpunt , doet het ABFS-stuurprogramma aanvragen naar het Data Lake Storage-eindpunt van uw account.

Data Lake Storage-eindpunt

Uw bijgewerkte account heeft een Data Lake-opslageindpunt. U vindt de URL van dit eindpunt in Azure Portal door de pagina Eigenschappen van uw account te openen.

Categorie Algemeen gebruik v2

U hoeft uw bestaande toepassingen en workloads niet te wijzigen om dat eindpunt te gebruiken. Met multiprotocoltoegang in Data Lake Storage kunt u het Blob-service-eindpunt of het Data Lake Storage-eindpunt gebruiken om met uw gegevens te communiceren.

Azure-services en -hulpprogramma's (zoals AzCopy) kunnen het Data Lake-opslageindpunt gebruiken om te communiceren met de gegevens in uw opslagaccount. U moet dit nieuwe eindpunt ook gebruiken voor bewerkingen die u uitvoert met behulp van de Data Lake Storage SDK's, PowerShell-opdrachten of Azure CLI-opdrachten.

Directories

Een Blob Storage-account dat geen hiërarchische naamruimte heeft, organiseert bestanden in een plat paradigma in plaats van een hiërarchisch paradigma. Blobs zijn ingedeeld in virtuele mappen om een mapstructuur na te bootsen. Een virtuele map maakt deel uit van de naam van de blob en wordt aangegeven door het scheidingsteken. Omdat een virtuele map deel uitmaakt van de blobnaam, bestaat deze niet daadwerkelijk als een onafhankelijk object.

Uw nieuwe account heeft een hiërarchische naamruimte. Dat betekent dat mappen niet virtueel zijn. Het zijn concrete, onafhankelijke objecten waarop u rechtstreeks kunt werken. Een map kan bestaan zonder bestanden te bevatten. Wanneer u een map verwijdert, worden alle bestanden in die map verwijderd. U hoeft elke afzonderlijke blob niet meer te verwijderen voordat de map verdwijnt.

De metagegevens van de blob

Vóór de migratie worden blobmetagegevens gekoppeld aan de naam van de blob, samen met het volledige virtuele pad. Na de migratie worden de metagegevens alleen gekoppeld aan de blob. Het virtuele pad naar de blob wordt een verzameling mappen. Metagegevens van een blob worden niet toegepast op een van deze mappen.

Putbewerkingen

Wanneer u een blob uploadt en het pad dat u opgeeft een map bevat die niet bestaat, maakt de bewerking die map en voegt de blob er vervolgens aan toe. Dit gedrag is logisch in de context van een hiërarchische mapstructuur. In een Blob Storage-account dat geen hiërarchische naamruimte heeft, maakt de bewerking geen map. In plaats daarvan wordt de mapnaam toegevoegd aan de naam van de blob.

Lijstbewerkingen

Een list-blobs-bewerking retourneert zowel mappen als bestanden. Elke wordt afzonderlijk weergegeven. Mappen worden in de lijst weergegeven als blobs met lengte nul. In een Blob Storage-account dat geen hiërarchische naamruimte heeft, retourneert een list-blobs-bewerking alleen blobs en niet mappen. Als u het Data Lake Storage-pad - Lijstbewerking gebruikt, worden mappen weergegeven als mapvermeldingen en niet als blobs met lengte nul.

De lijstvolgorde is ook anders. Mappen en bestanden worden in diepte-eerste zoekvolgorde weergegeven. Een Blob Storage-account dat geen hiërarchische naamruimte heeft, bevat blobs in lexicografische volgorde.

Bewerkingen om de naam van blobs te wijzigen

Het wijzigen van de naam van een blob is veel efficiënter omdat clienttoepassingen de naam van een blob in één bewerking kunnen wijzigen. In accounts die geen hiërarchische naamruimte hebben, moeten hulpprogramma's en toepassingen een blob kopiëren en vervolgens de bron-blob verwijderen.

Notitie

Wanneer u de naam van een blob wijzigt, wordt de laatste wijzigingstijd van de blob niet bijgewerkt. Dat komt doordat de inhoud van de blob ongewijzigd blijft.

Impact op kosten

Er zijn geen kosten verbonden aan het uitvoeren van de upgrade. Na de upgrade worden de kosten voor het opslaan van uw gegevens niet gewijzigd, maar de kosten van een transactie kunnen veranderen, afhankelijk van de eindpuntclients , toepassingen en workloads die u gebruikt om gegevens te lezen en te schrijven. Zie Aanvragen voor het eindpunt van de blob-service en aanvragen voor het Data Lake Storage-eindpunt.

Afgezien van prijswijzigingen, kunt u rekening houden met de kostenbesparingen die zijn gekoppeld aan Data Lake Storage-mogelijkheden. Het totale totaal van de eigendomskosten neemt doorgaans af vanwege een hogere doorvoer en geoptimaliseerde bewerkingen. Met een hogere doorvoer kunt u in minder tijd meer gegevens overdragen. Een hiërarchische naamruimte verbetert de efficiëntie van bewerkingen.

Invloed op service-integraties

Hoewel de meeste Azure-service-integraties blijven werken nadat u deze mogelijkheden hebt ingeschakeld, blijven sommige ervan in preview of nog niet ondersteund. Zie Azure-services die Ondersteuning bieden voor Azure Data Lake Storage om inzicht te krijgen in de huidige ondersteuning voor Azure-serviceintegraties met Data Lake Storage.

Invloed op hulpprogramma's, functies en documentatie

Nadat u een upgrade hebt uitgevoerd, verandert de manier waarop u met bepaalde functies werkt. In deze sectie worden deze wijzigingen beschreven.

Ondersteuning voor de Blob Storage-functie

Hoewel de meeste blobopslagfuncties blijven werken nadat u deze mogelijkheden hebt ingeschakeld, blijven sommige ervan in preview of worden ze nog niet ondersteund.

Zie Blob Storage-functies die beschikbaar zijn in Azure Data Lake Storage voor meer informatie over de huidige ondersteuning voor Blob Storage-functies met Data Lake Storage.

Diagnostische logboeken

Als u Logboekregistratie van Opslaganalyse inschakelt, hebt u nu de optie om de logboekindeling versie 2.0 te gebruiken.

U hoeft deze nieuwe versie niet te gebruiken. Bewerkingen die worden toegepast op het Data Lake-opslageindpunt, worden echter alleen vastgelegd in versie 2.0-logboeken. Sommige services en hulpprogramma's die u gebruikt (zoals AzCopy) gebruiken dat eindpunt om bewerkingen uit te voeren op uw account. Als u ervoor wilt zorgen dat u logboekgegevens van alle activiteiten vastlegt, kunt u overwegen de logboekindeling 2.0 van versie 2.0 te gebruiken.

Beheer van azure-levenscyclus

In feite wordt uitgelegd dat beleidsregels voor het verplaatsen of verwijderen van alle blobs in een map de map zelf pas verwijderen als alle blobs erin zijn verwijderd en dat de map de volgende dag wordt verwijderd.

Event Grid

Uw nieuwe account heeft twee eindpunten: het Data Lake-opslageindpunt en het Blob-service-eindpunt. Services, hulpprogramma's en toepassingen kunnen beide eindpunten gebruiken om op uw gegevens te werken. Als gevolg hiervan kan een gebeurtenisantwoord dat wordt geretourneerd door Event Grid, een van deze twee eindpunten weergeven in het URL-veld waarin de betreffende blob wordt beschreven.

In de volgende JSON ziet u de URL van een blob die wordt weergegeven in het gebeurtenisantwoord wanneer een blob wordt gemaakt met behulp van het Blob-service-eindpunt.

{
  "topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
  "subject": "/blobServices/default/containers/test-container/blobs/new-file.txt",
  "eventType": "Microsoft.Storage.BlobCreated",
  "eventTime": "2017-06-26T18:41:00.9584103Z",
  "id": "831e1650-001e-001b-66ab-eeb76e069631",
  "data": {
    "api": "PutBlockList",
    "clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
    "requestId": "831e1650-001e-001b-66ab-eeb76e000000",
    "eTag": "\"0x8D4BCC2E4835CD0\"",
    "contentType": "text/plain",
    "contentLength": 524288,
    "blobType": "BlockBlob",
    "url": "https://my-storage-account.blob.core.windows.net/testcontainer/new-file.txt",
    "sequencer": "00000000000004420000000000028963",
    "storageDiagnostics": {
      "batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
    }
  },
  "dataVersion": "",
  "metadataVersion": "1"
}

In de volgende JSON ziet u de URL van een blob die wordt weergegeven in het gebeurtenisantwoord wanneer een blob wordt gemaakt met behulp van het Data Lake Storage-eindpunt.

{
  "topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
  "subject": "/blobServices/default/containers/my-file-system/blobs/new-file.txt",
  "eventType": "Microsoft.Storage.BlobCreated",
  "eventTime": "2017-06-26T18:41:00.9584103Z",
  "id": "831e1650-001e-001b-66ab-eeb76e069631",
  "data": {
    "api": "CreateFile",
    "clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
    "requestId": "831e1650-001e-001b-66ab-eeb76e000000",
    "eTag": "\"0x8D4BCC2E4835CD0\"",
    "contentType": "text/plain",
    "contentLength": 0,
    "contentOffset": 0,
    "blobType": "BlockBlob",
    "url": "https://my-storage-account.dfs.core.windows.net/my-file-system/new-file.txt",
    "sequencer": "00000000000004420000000000028963",
    "storageDiagnostics": {
      "batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
    }
  },
  "dataVersion": "2",
  "metadataVersion": "1"
}

Als uw toepassingen gebruikmaken van Event Grid, moet u deze toepassingen mogelijk wijzigen om rekening mee te houden.

Storage Explorer

De volgende knoppen worden nog niet weergegeven op het lint van Azure Storage Explorer:

Knop Reden
URL kopiëren Nog niet geïmplementeerd
Momentopnamen beheren Nog niet geïmplementeerd

De volgende knoppen gedragen zich anders in uw nieuwe account.

Knop Gedrag van Blob Storage Gedrag van Data Lake Storage
Map Map is virtueel en verdwijnt als u er geen bestanden aan toevoegt. De map bestaat zelfs zonder bestanden die eraan zijn toegevoegd.
Naam wijzigen Resulteert in een kopie en vervolgens een verwijdering van de bron-blob Wijzigt de naam van dezelfde blob. Veel efficiënter.

Documentatie

U vindt hier richtlijnen voor het gebruik van Data Lake Storage-mogelijkheden: Inleiding tot Azure Data Lake Storage.

Er is niets veranderd met betrekking tot waar u de richtlijnen vindt voor alle bestaande Blob Storage-functies. Deze richtlijnen zijn hier: Inleiding tot Azure Blob Storage.

Wanneer u tussen inhoudssets navigeert, ziet u enkele kleine terminologieverschillen. Inhoud die in de Data Lake Storage-inhoud wordt aanbevolen, kan bijvoorbeeld de term bestand en bestandssysteem gebruiken in plaats van blob en container. De termen bestand en bestandssysteem zijn diep geroot in de wereld van big data-analyses waar Data Lake-opslag een lange geschiedenis heeft gehad. De inhoud bevat deze termen om deze weer te geven aan deze doelgroepen. In deze termen worden geen afzonderlijke zaken beschreven.

Volgende stappen

Als u klaar bent om uw opslagaccount te upgraden om Data Lake Storage-mogelijkheden op te nemen, raadpleegt u deze stapsgewijze handleiding.