Sdílet prostřednictvím


Upgrade služby Azure Blob Storage s využitím funkcí Služby Azure Data Lake Storage

Tento článek vám pomůže povolit hierarchický obor názvů a možnosti odemknutí, jako je zabezpečení na úrovni souborů a adresářů a rychlejší operace. Tyto funkce jsou široce používány analytickými úlohami pro velké objemy dat a označují se souhrnně jako Azure Data Lake Storage. Mezi nejoblíbenější funkce patří:

  • Vyšší propustnost, vstupně-výstupní operace za sekundu (IOPS) a limity kapacity úložiště.

  • Rychlejší operace (například operace přejmenování), protože můžete pracovat s identifikátory URI jednotlivých uzlů.

  • Efektivní dotazovací modul, který přenáší pouze data potřebná k provedení dané operace.

  • Zabezpečení na úrovni kontejneru, adresáře a souboru

Další informace o nich najdete v tématu Úvod do Služby Azure Data Lake Storage.

Tento článek vám pomůže vyhodnotit dopad na úlohy, aplikace, náklady, integrace služeb, nástroje, funkce a dokumentaci. Nezapomeňte tyto dopady pečlivě zkontrolovat. Až budete připravení upgradovat účet, přečtěte si tento podrobný průvodce: Upgrade služby Azure Blob Storage s využitím funkcí Služby Azure Data Lake Storage.

Důležité

Upgrade je jednosměrný. Po provedení upgradu už nelze účet vrátit zpět. Doporučujeme ověřit upgrade v neprodukčním prostředí.

Dopad na dostupnost

Během dokončení procesu upgradu nezapomeňte naplánovat výpadek ve vašem účtu. Operace zápisu jsou při upgradu vašeho účtu zakázané. Operace čtení nejsou zakázané, ale důrazně doporučujeme pozastavit operace čtení, protože tyto operace můžou proces upgradu deaktivovat.

Dopad na úlohy a aplikace

Rozhraní BLOB API pracují s účty, které mají hierarchický obor názvů, takže většina aplikací, které pracují s vaším účtem pomocí těchto rozhraní API, nadále funguje bez úprav.

Úplný seznam problémů a jejich řešení najdete v tématu Známé problémy s rozhraními API služby Blob Storage.

Všechny úlohy Hadoopu, které používají ovladač Windows Azure Storage Blob Driver (WASB), musí být upraveny tak, aby používaly ovladač systému souborů Azure Blob (ABFS). Na rozdíl od ovladače WASB, který provádí požadavky na koncový bod služby Blob Service , ovladač ABFS odešle požadavky na koncový bod Data Lake Storage vašeho účtu.

Koncový bod Data Lake Storage

Váš upgradovaný účet bude mít koncový bod úložiště Data Lake. Adresu URL tohoto koncového bodu najdete na webu Azure Portal tak, že otevřete stránku Vlastnosti vašeho účtu.

Kategorie pro obecné účely v2

Abyste mohli tento koncový bod používat, nemusíte upravovat stávající aplikace a úlohy. Víceprotokolový přístup ve službě Data Lake Storage umožňuje používat buď koncový bod služby Blob Service, nebo koncový bod Data Lake Storage k interakci s daty.

Služby a nástroje Azure (například AzCopy) můžou používat koncový bod úložiště Data Lake k interakci s daty ve vašem účtu úložiště. Tento nový koncový bod budete také muset použít pro všechny operace, které provádíte pomocí sad SDK služby Data Lake Storage, příkazů PowerShellu nebo příkazů Azure CLI.

Directories

Účet úložiště objektů blob, který nemá hierarchický obor názvů, organizuje soubory v plochém paradigmatu místo hierarchického paradigmatu. Objekty blob jsou uspořádané do virtuálních adresářů, aby napodobovaly strukturu složek. Virtuální adresář tvoří část názvu objektu blob a je označen znakem oddělovače. Protože virtuální adresář je součástí názvu objektu blob, ve skutečnosti neexistuje jako nezávislý objekt.

Váš nový účet má hierarchický obor názvů. To znamená, že adresáře nejsou virtuální. Jedná se o konkrétní nezávislé objekty, se kterými můžete pracovat přímo. Adresář může existovat bez nutnosti obsahovat žádné soubory. Když odstraníte adresář, odeberou se všechny soubory v daném adresáři. Před tím, než adresář zmizí, už nemusíte odstraňovat jednotlivé objekty blob.

Metadata objektů blob

Před migrací jsou metadata objektů blob přidružená k názvu objektu blob spolu s celou virtuální cestou. Po migraci jsou metadata přidružená pouze k objektu blob. Virtuální cesta k objektu blob se stane kolekcí adresářů. Metadata objektu blob se na žádný z těchto adresářů nepoužijí.

Operace vložení

Když nahrajete objekt blob a zadaná cesta obsahuje adresář, který neexistuje, operace vytvoří tento adresář a pak do něj přidá objekt blob. Toto chování je logické v kontextu hierarchické struktury složek. V účtu úložiště objektů blob, který nemá hierarchický obor názvů, operace nevytvoří adresář. Místo toho se název adresáře přidá do názvu objektu blob.

Operace seznamu

Operace výpisu objektů blob vrátí adresáře i soubory. Každá z nich je uvedena samostatně. Adresáře se v seznamu zobrazují jako objekty blob nulové délky. V účtu úložiště objektů blob, který nemá hierarchický obor názvů, vrátí operace Výpis objektů blob pouze objekty blob, nikoli adresáře. Pokud použijete operaci Cesta ke službě Data Lake Storage – Seznam , adresáře se zobrazí jako položky adresáře a ne jako objekty blob nulové délky.

Pořadí seznamů se také liší. Adresáře a soubory se zobrazují v podrobném pořadí hledání . Účet služby Blob Storage, který nemá hierarchický obor názvů, obsahuje seznam objektů blob v lexikálním pořadí.

Operace přejmenování objektů blob

Přejmenování objektu blob je mnohem efektivnější, protože klientské aplikace můžou objekt blob přejmenovat v rámci jedné operace. Vúčtech

Poznámka:

Při přejmenování objektu blob se čas poslední změny objektu blob neaktualizuje. Je to proto, že obsah objektu blob se nezmění.

Dopad na náklady

Provedení upgradu není nijak nákladné. Po upgradu se náklady na uložení dat nezmění, ale náklady na transakci se změní. Na těchto stránkách můžete vyhodnotit náklady na porovnání.

  • Ceny objektů blob bloku

  • Ceny služby Azure Data Lake Storage

Pomocí možnosti Účty úložiště v cenové kalkulačce Azure můžete také odhadnout dopad nákladů po upgradu.

Kromě cenových změn zvažte úspory nákladů spojené s možnostmi Služby Data Lake Storage. Celkový součet nákladů na vlastnictví obvykle klesá kvůli vyšší propustnosti a optimalizovaným operacím. Vyšší propustnost umožňuje přenášet více dat za kratší dobu. Hierarchický obor názvů zlepšuje efektivitu operací.

Dopad na integrace služeb

I když většina integrací služeb Azure bude po povolení těchto funkcí i nadále fungovat, některé z nich zůstanou ve verzi Preview nebo ještě nejsou podporované. Podívejte se na služby Azure, které podporují Azure Data Lake Storage , abyste porozuměli aktuální podpoře integrace služeb Azure se službou Data Lake Storage.

Dopad na nástroje, funkce a dokumentaci

Po upgradu se změní způsob interakce s některými funkcemi. Tato část popisuje tyto změny.

Podpora funkce Blob Storage

I když většina funkcí úložiště objektů blob bude fungovat i po povolení těchto funkcí, některé z nich zůstanou ve verzi Preview nebo ještě nejsou podporované.

Informace o aktuální podpoře funkcí služby Blob Storage ve službě Data Lake Storage v Data Lake Storage najdete v tématu Funkce blob Storage.

Diagnostické protokoly

Pokud povolíte protokolování analýzy úložiště, máte teď možnost použít formát protokolu verze 2.0.

Tuto novou verzi nemusíte používat. Všechny operace použité na koncový bod úložiště Data Lake se ale zaznamenávají jenom v protokolech verze 2.0. Některé služby a nástroje, které používáte (například AzCopy), použijí tento koncový bod k provádění operací s vaším účtem. Abyste měli jistotu, že zaznamenáváte informace o protokolování ze všech aktivit, zvažte použití formátu protokolu verze 2.0.

Správa životního cyklu Azure

Efektivně vysvětluje, že zásady pro přesun nebo odstranění všech objektů blob v adresáři neodstraní samotný adresář, dokud se neodeberou všechny objekty blob v něm a adresář se odebere následující den.

Event Grid

Váš nový účet má dva koncové body: koncový bod Data Lake Storage a koncový bod služby Blob Service. Služby, nástroje a aplikace můžou k provozu s vašimi daty používat některý koncový bod. Výsledkem je, že odpověď na událost vrácenou službou Event Grid může v poli adresy URL, která popisuje ovlivněný objekt blob, zobrazit některý z těchto dvou koncových bodů.

Následující KÓD JSON ukazuje adresu URL objektu blob, který se zobrazí v odpovědi na událost při vytvoření objektu blob pomocí koncového bodu služby Blob Service.

{
  "topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
  "subject": "/blobServices/default/containers/test-container/blobs/new-file.txt",
  "eventType": "Microsoft.Storage.BlobCreated",
  "eventTime": "2017-06-26T18:41:00.9584103Z",
  "id": "831e1650-001e-001b-66ab-eeb76e069631",
  "data": {
    "api": "PutBlockList",
    "clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
    "requestId": "831e1650-001e-001b-66ab-eeb76e000000",
    "eTag": "\"0x8D4BCC2E4835CD0\"",
    "contentType": "text/plain",
    "contentLength": 524288,
    "blobType": "BlockBlob",
    "url": "https://my-storage-account.blob.core.windows.net/testcontainer/new-file.txt",
    "sequencer": "00000000000004420000000000028963",
    "storageDiagnostics": {
      "batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
    }
  },
  "dataVersion": "",
  "metadataVersion": "1"
}

Následující JSON ukazuje adresu URL objektu blob, který se zobrazí v odpovědi na událost při vytvoření objektu blob pomocí koncového bodu služby Data Lake Storage.

{
  "topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
  "subject": "/blobServices/default/containers/my-file-system/blobs/new-file.txt",
  "eventType": "Microsoft.Storage.BlobCreated",
  "eventTime": "2017-06-26T18:41:00.9584103Z",
  "id": "831e1650-001e-001b-66ab-eeb76e069631",
  "data": {
    "api": "CreateFile",
    "clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
    "requestId": "831e1650-001e-001b-66ab-eeb76e000000",
    "eTag": "\"0x8D4BCC2E4835CD0\"",
    "contentType": "text/plain",
    "contentLength": 0,
    "contentOffset": 0,
    "blobType": "BlockBlob",
    "url": "https://my-storage-account.dfs.core.windows.net/my-file-system/new-file.txt",
    "sequencer": "00000000000004420000000000028963",
    "storageDiagnostics": {
      "batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
    }
  },
  "dataVersion": "2",
  "metadataVersion": "1"
}

Pokud vaše aplikace používají Event Grid, možná budete muset tyto aplikace upravit, aby tyto aplikace zohlednily.

Průzkumník služby Storage

Na pásu karet Průzkumník služby Azure Storage se zatím nezobrazují následující tlačítka:

Tlačítko Důvod
Zkopírování adresy URL Dosud neimplementované
Správa snímků Dosud neimplementované
Zrušit odstranění Závisí na funkcích služby Blob Storage, které ještě služba Data Lake Storage nepodporuje.

Následující tlačítka se v novém účtu chovají jinak.

Tlačítko Chování úložiště objektů blob Chování data Lake Storage
Složka Složka je virtuální a zmizí, pokud do ní nepřidáte soubory. Složka existuje i bez souborů, které do ní nejsou přidány.
Přejmenovat Výsledkem je kopie a odstranění zdrojového objektu blob. Přejmenuje stejný objekt blob. Mnohem efektivnější.

Dokumentace

Pokyny k používání funkcí Data Lake Storage najdete tady: Úvod do Azure Data Lake Storage.

Nic se nezměnilo s ohledem na to, kde najdete pokyny pro všechny stávající funkce úložiště objektů blob. Tady najdete pokyny: Úvod do úložiště objektů blob v Azure.

Při procházení mezi sadami obsahu si všimnete drobných rozdílů v terminologii. Například obsah doporučený v obsahu Data Lake Storage může místo objektu blob a kontejneru používat soubor termínů a systém souborů. Termíny soubor a systém souborů jsou hluboce kořenem ve světě analýz velkých objemů dat, kde služba Data Lake Storage měla dlouhou historii. Obsah obsahuje tyto termíny, aby byl pro tyto cílové skupiny opakovaně použitelný. Tyto termíny nepopisují samostatné věci.

Další kroky

Až budete připraveni upgradovat účet úložiště tak, aby zahrnoval možnosti Data Lake Storage, prohlédněte si tohoto podrobného průvodce.