Sdílet prostřednictvím


Převzetí služeb při selhání pro provozní kontinuitu a zotavení po havárii

Pokud chcete maximalizovat dobu provozu, naplánujte si dopředu zachování kontinuity podnikových procesů a připravte se na zotavení po havárii pomocí služby Azure Machine Learning.

Microsoft se snaží zajistit, aby byly služby Azure vždy dostupné. K neplánovaným výpadkům služeb ale může dojít. Doporučujeme mít zavedený plán zotavení po havárii pro zpracování regionálních výpadků služeb. V tomto článku získáte informace o těchto tématech:

  • Naplánujte nasazení služby Azure Machine Learning do více oblastí a přidružených prostředků.
  • Maximalizujte šance na obnovení protokolů, poznámkových bloků, imagí Dockeru a dalších metadat.
  • Návrh pro zajištění vysoké dostupnosti vašeho řešení
  • Zahajte převzetí služeb při selhání do jiné oblasti.

Důležité

Služba Azure Machine Learning sama o sobě neposkytuje automatické převzetí služeb při selhání nebo zotavení po havárii. Zálohování a obnovení metadat pracovního prostoru, jako je historie spuštění, není k dispozici.

V případě, že jste omylem odstranili pracovní prostor nebo odpovídající komponenty, najdete v tomto článku také aktuálně podporované možnosti obnovení.

Vysvětlení služeb Azure pro Azure Machine Learning

Azure Machine Learning závisí na několika službách Azure. Některé z těchto služeb se zřizují ve vašem předplatném. Zodpovídáte za konfiguraci těchto služeb s vysokou dostupností. Jiné služby se vytvářejí v předplatném Microsoftu a spravuje je Microsoft.

Mezi služby Azure patří:

  • Infrastruktura Azure Machine Learning: Prostředí spravované Microsoftem pro pracovní prostor Azure Machine Learning

  • Přidružené prostředky: Prostředky zřízené ve vašem předplatném během vytváření pracovního prostoru Azure Machine Learning Mezi tyto prostředky patří Azure Storage, Azure Key Vault, Azure Container Registry a Application Insights.

    • Výchozí úložiště obsahuje data, jako jsou model, trénovací data protokolu a odkazy na datové prostředky.
    • Key Vault má přihlašovací údaje pro úložiště dat Azure Storage, Container Registry a úložiště dat.
    • Container Registry má image Dockeru pro trénovací a odvozovací prostředí.
    • Application Insights slouží k monitorování služby Azure Machine Learning.
  • Výpočetní prostředky: Prostředky, které vytvoříte po nasazení pracovního prostoru. Můžete například vytvořit výpočetní instanci nebo výpočetní cluster pro trénování modelu Machine Learning.

    • Výpočetní instance a výpočetní cluster: Vývojová prostředí modelu spravovaná Microsoftem
    • Další zdroje: výpočetní prostředky Microsoftu, které můžete připojit ke službě Azure Machine Learning, jako je Azure Kubernetes Service (AKS), Azure Databricks, Azure Container Instances a Azure HDInsight. Zodpovídáte za konfiguraci nastavení vysoké dostupnosti pro tyto prostředky.
  • Další úložiště dat: Azure Machine Learning může připojit další úložiště dat, jako je Azure Storage a Azure Data Lake Storage pro trénovací data. Tato úložiště dat se zřizují v rámci vašeho předplatného. Zodpovídáte za konfiguraci nastavení vysoké dostupnosti. Další možnosti úložiště dat najdete v tématu Vytváření úložišť dat.

Následující tabulka uvádí, že služby Azure spravuje Microsoft a které spravujete vy. Označuje také služby, které jsou ve výchozím nastavení vysoce dostupné.

Služba Spravuje ho Vysoká dostupnost ve výchozím nastavení
Infrastruktura služby Azure Machine Learning Microsoft
Přidružené prostředky
Azure Storage Vy
Key Vault Vy
Container Registry Vy
Application Insights Vy NA
Výpočetní prostředky
Výpočetní instance Microsoft
Výpočtový cluster Microsoft
Další výpočetní prostředky, jako je AKS,
Azure Databricks, Container Instances, HDInsight
Vy
Další úložiště dat, jako je Azure Storage, SQL Database,
Azure Database for PostgreSQL, Azure Database for MySQL,
Systém souborů Azure Databricks
Vy

Zbytek tohoto článku popisuje akce, které potřebujete k zajištění vysoké dostupnosti každé z těchto služeb.

Plánování nasazení ve více oblastech

Víceregionální nasazení spoléhá na vytvoření služby Azure Machine Learning a dalších prostředků (infrastruktury) ve dvou oblastech Azure. Pokud dojde k výpadku oblasti, můžete přepnout na jinou oblast. Při plánování nasazení prostředků zvažte:

  • Regionální dostupnost: Pokud je to možné, použijte oblast ve stejné geografické oblasti, nikoli nutně oblast, která je nejblíže. Pokud chcete zkontrolovat dostupnost služby Azure Machine Learning v jednotlivých oblastech, projděte si produkty Azure v jednotlivých oblastech.

  • Spárované oblasti Azure: Spárované oblasti koordinuje aktualizace platformy a v případě potřeby upřednostňují úsilí o obnovení. Ne všechny oblasti však podporují spárované oblasti. Další informace najdete v tématu Spárované oblasti Azure.

  • Dostupnost služby: Rozhodněte se, jestli mají být prostředky používané vaším řešením horké, horké, teplé nebo horké nebo studené.

    • Horká/horká: Obě oblasti jsou aktivní současně, přičemž jedna oblast je připravená k okamžitému použití.
    • Horká/teplá: Primární oblast aktivní, sekundární oblast má kritické prostředky (například nasazené modely) připravené ke spuštění. Nekritické prostředky by bylo potřeba ručně nasadit v sekundární oblasti.
    • Horká/studená: Primární aktivní oblast, sekundární oblast má nasazenou službu Azure Machine Learning a další prostředky spolu s potřebnými daty. Prostředky, jako jsou modely, nasazení modelů nebo kanály, by bylo potřeba nasadit ručně.

Tip

V závislosti na vašich obchodních požadavcích se můžete rozhodnout zacházet s různými prostředky Azure Machine Learning odlišně. Například pro nasazené modely (odvozování) můžete chtít použít horkou/horkou a studenou pro experimenty (trénování).

Azure Machine Learning vychází z jiných služeb. Některé služby je možné nakonfigurovat tak, aby se replikovaly do jiných oblastí. Ostatní musíte vytvořit ručně ve více oblastech. Následující tabulka obsahuje seznam služeb, které jsou zodpovědné za replikaci, a přehled konfigurace:

Služba Azure Geograficky replikované podle Konfigurace
Pracovní prostor Machine Learning Vy Vytvořte pracovní prostor ve vybraných oblastech.
Výpočetní prostředky služby Machine Learning Vy Vytvořte výpočetní prostředky ve vybraných oblastech. U výpočetních prostředků, které se můžou dynamicky škálovat, se ujistěte, že obě oblasti poskytují dostatečnou kvótu výpočetních prostředků pro vaše potřeby.
Registr služby Machine Learning Vy Vytvořte registr ve více oblastech.
Key Vault Microsoft Použijte stejnou instanci služby Key Vault s pracovním prostorem a prostředky služby Azure Machine Learning v obou oblastech. Key Vault automaticky převezme služby při selhání do sekundární oblasti. Další informace najdete v tématu Dostupnost a redundance služby Azure Key Vault.
Container Registry Microsoft Nakonfigurujte instanci služby Container Registry tak, aby geograficky replikovala registry do spárované oblasti pro Azure Machine Learning. Pro obě instance pracovního prostoru použijte stejnou instanci. Další informace najdete v tématu Geografická replikace ve službě Azure Container Registry.
Účet úložiště Vy Azure Machine Learning nepodporuje výchozí převzetí služeb při selhání účtu úložiště pomocí geograficky redundantního úložiště (GRS), geograficky zónově redundantního úložiště (GZRS), geograficky redundantního úložiště jen pro čtení (RA-GRS) nebo geograficky zónově redundantního úložiště jen pro čtení (RA-GZRS). Vytvořte samostatný účet úložiště pro výchozí úložiště každého pracovního prostoru.
Vytvořte samostatné účty úložiště nebo služby pro jiné úložiště dat. Další informace najdete v článku Možnosti redundance Azure Storage.
Application Insights Vy Vytvořte Application Insights pro pracovní prostor v obou oblastech. Informace o úpravě doby uchovávání dat a podrobností najdete v tématu Shromažďování, uchovávání a ukládání dat v Application Insights.

Pokud chcete v sekundární oblasti povolit rychlé obnovení a restartování, doporučujeme následující postupy vývoje:

  • Použijte šablony Azure Resource Manageru. Šablony jsou infrastruktura jako kód a umožňují rychle nasazovat služby v obou oblastech.
  • Abyste se vyhnuli posunu mezi dvěma oblastmi, aktualizujte kanály kontinuální integrace a nasazení do obou oblastí.
  • Při automatizaci nasazení zahrňte konfiguraci připojených výpočetních prostředků pracovního prostoru, jako je Azure Kubernetes Service.
  • Vytvořte přiřazení rolí pro uživatele v obou oblastech.
  • Vytvořte síťové prostředky, jako jsou virtuální sítě Azure a privátní koncové body pro obě oblasti. Ujistěte se, že uživatelé mají přístup k oběma síťovým prostředím. Například konfigurace VPN a DNS pro obě virtuální sítě.

Výpočetní a datové služby

V závislosti na vašich potřebách můžete mít více výpočetních nebo datových služeb používaných službou Azure Machine Learning. Můžete například použít Azure Kubernetes Services nebo Azure SQL Database. Následující informace vám pomůžou zjistit, jak tyto služby nakonfigurovat pro zajištění vysoké dostupnosti.

Výpočetní prostředky

Datové služby

Tip

Pokud k nasazení pracovního prostoru Azure Machine Learning zadáte vlastní klíč spravovaný zákazníkem, služba Azure Cosmos DB se také zřídí v rámci vašeho předplatného. V takovém případě zodpovídáte za konfiguraci nastavení vysoké dostupnosti. Podívejte se na vysokou dostupnost ve službě Azure Cosmos DB.

Návrh pro zajištění vysoké dostupnosti

Zóny dostupnosti

Některé služby Azure podporují zóny dostupnosti. Pro oblasti, které podporují zóny dostupnosti, pokud zóna přestane fungovat, pozastaví se úlohy a data by se měla uložit. Data se ale neaktualizuje, dokud se zóna nevrátí do online režimu.

Další informace najdete v tématu Podpora služby zóny dostupnosti.

Nasazení důležitých komponent do několika oblastí

Určete úroveň kontinuity podnikových procesů, na kterou se zaměřujete. Úroveň se může lišit mezi komponentami vašeho řešení. Můžete například chtít mít horkou/horkou konfiguraci pro produkční kanály nebo nasazení modelu a horkou/studenou pro experimentování.

Správa trénovacích dat v izolovaném úložišti

Když necháte úložiště dat izolované od výchozího úložiště, které pracovní prostor používá pro protokoly, můžete:

  • Připojte stejné instance úložiště jako úložiště dat k primárním a sekundárním pracovním prostorům.
  • Využijte geografickou replikaci pro účty úložiště dat a maximalizujte dobu provozu.

Správa prostředků strojového učení jako kódu

Poznámka:

Zálohování a obnovení metadat pracovního prostoru, jako je historie spuštění, modely a prostředí, nejsou k dispozici. Zadání prostředků a konfigurací jako kódu pomocí specifikací YAML vám pomůže znovu vytvořit prostředky napříč pracovními prostory v případě havárie.

Úlohy ve službě Azure Machine Learning jsou definované specifikací úlohy. Tato specifikace zahrnuje závislosti na vstupních artefaktech spravovaných na úrovni instance pracovního prostoru, včetně prostředí a výpočetních prostředků. Pro odesílání a nasazení úloh ve více oblastech doporučujeme následující postupy:

  • Spravujte základ kódu místně, který je založený na úložišti Git.

    • Export důležitých poznámkových bloků z studio Azure Machine Learning
    • Export kanálů vytvořených v nástroji Studio jako kódu
  • Správa konfigurací jako kódu

    • Vyhněte se pevně zakódovaným odkazům na pracovní prostor. Místo toho nakonfigurujte odkaz na instanci pracovního prostoru pomocí konfiguračního souboru a k inicializaci pracovního prostoru použijte MLClient.from_config().
    • Pokud používáte vlastní image Dockeru, použijte soubor Dockerfile.

Inicializace převzetí služeb při selhání

Pokračovat v práci v pracovním prostoru převzetí služeb při selhání

Jakmile bude váš primární pracovní prostor nedostupný, můžete přepnout sekundární pracovní prostor a pokračovat v experimentování a vývoji. Azure Machine Learning automaticky neodesílaje úlohy do sekundárního pracovního prostoru, pokud dojde k výpadku. Aktualizujte konfiguraci kódu tak, aby odkazovat na nový prostředek pracovního prostoru. Doporučujeme vyhnout se pevně zakódování odkazů na pracovní prostor. Místo toho použijte konfigurační soubor pracovního prostoru k minimalizaci ručních uživatelských kroků při změně pracovních prostorů. Nezapomeňte aktualizovat všechny automatizace, jako je kontinuální integrace a kanály nasazení, do nového pracovního prostoru.

Azure Machine Learning nemůže synchronizovat ani obnovovat artefakty nebo metadata mezi instancemi pracovního prostoru. V závislosti na strategii nasazení aplikace možná budete muset přesunout artefakty nebo znovu vytvořit vstupy experimentování, jako jsou datové prostředky, v pracovním prostoru převzetí služeb při selhání, aby bylo možné pokračovat v odesílání úloh. Pokud jste nakonfigurovali primární pracovní prostor a sekundární prostředky pracovního prostoru tak, aby sdílely přidružené prostředky s povolenou geografickou replikací, můžou být některé objekty přímo dostupné pro pracovní prostor převzetí služeb při selhání. Pokud například oba pracovní prostory sdílejí stejné image Dockeru, nakonfigurované úložiště dat a prostředky služby Azure Key Vault. Následující diagram znázorňuje konfiguraci, ve které dva pracovní prostory sdílejí stejné image (1), úložiště dat (2) a Key Vault (3).

Diagram převzetí služeb při selhání mezi spárovanými oblastmi

Poznámka:

Všechny úlohy spuštěné při výpadku služby se automaticky nepřevedou do sekundárního pracovního prostoru. Je také nepravděpodobné, že se úlohy obnoví a úspěšně dokončí v primárním pracovním prostoru po vyřešení výpadku. Místo toho je nutné tyto úlohy znovu odeslat, a to buď v sekundárním pracovním prostoru, nebo v primárním pracovním prostoru (po vyřešení výpadku).

Přesouvání artefaktů mezi pracovními prostory

V závislosti na vašem přístupu k obnovení možná budete muset zkopírovat artefakty mezi pracovními prostory, abyste mohli pokračovat v práci. V současné době je přenositelnost artefaktů mezi pracovními prostory omezená. Pokud je to možné, doporučujeme spravovat artefakty jako kód, aby se mohly znovu vytvořit v instanci převzetí služeb při selhání.

Mezi pracovními prostory je možné exportovat a importovat následující artefakty pomocí rozšíření Azure CLI pro strojové učení:

Artefakt Export Dovoz
Modely az ml model download --name {NAME} --version {VERSION} az ml model create
Prostředí az ml environment share --name my-environment --version {VERSION} --resource-group {RESOURCE_GROUP} --workspace-name {WORKSPACE} --share-with-name {NEW_NAME_IN_REGISTRY} --share-with-version {NEW_VERSION_IN_REGISTRY} --registry-name {REGISTRY_NAME} az ml environment create
Úlohy Azure Machine Learning az ml job download -n {NAME} -g {RESOURCE_GROUP} -w {WORKSPACE_NAME} az ml job create -f {FILE} -g {RESOURCE_GROUP} -w {WORKSPACE_NAME}
Datové prostředky az ml data share --name {DATA_NAME} --version {VERSION} --resource-group {RESOURCE_GROUP} --workspace-name {WORKSPACE} --share-with-name {NEW_NAME_IN_REGISTRy} --share-with-version {NEW_VERSION_IN_REGISTRY} --registry-name {REGISTRY_NAME} az ml data create -f {FILE} -g {RESOURCE_GROUP} --registry-name {REGISTRY_NAME}

Tip

  • Výstupy úloh se ukládají ve výchozím účtu úložiště přidruženém k pracovnímu prostoru. I když výstupy úloh můžou být v případě výpadku služby nepřístupné v uživatelském rozhraní studia, můžete k datům přistupovat přímo přes účet úložiště. Další informace o práci s daty uloženými v objektech blob najdete v tématu Vytvoření, stažení a výpis objektů blob pomocí Azure CLI.

Možnosti obnovení

Odstranění pracovního prostoru

Pokud jste pracovní prostor odstranili omylem, možná ho budete moct obnovit. Postup obnovení najdete v tématu Obnovení dat pracovního prostoru po náhodném odstranění pomocí obnovitelného odstranění.

I když se váš pracovní prostor nedá obnovit, možná budete moct poznámkové bloky načíst z prostředku úložiště Azure přidruženého k pracovnímu prostoru pomocí následujícího postupu:

  • Na webu Azure Portal přejděte k účtu úložiště, který byl propojený s odstraněný pracovním prostorem Služby Azure Machine Learning.
  • V části Úložiště dat na levé straně vyberte Sdílené složky.
  • Poznámkové bloky se nacházejí ve sdílené složce s názvem, který obsahuje vaše ID pracovního prostoru.

Další kroky

Pokud chcete získat informace o opakovatelných nasazeních infrastruktury pomocí služby Azure Machine Learning, použijte šablonu Bicep nebo šablonu Terraformu.