Recuperação de desastre habilitada para o cliente
Importante
Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.
Para maximizar o tempo de atividade, planeje com antecedência para manter a continuidade dos negócios e prepare-se para a recuperação de desastres com o Estúdio de IA do Azure. Como o Estúdio de IA do Azure se baseia na arquitetura do Azure Machine Learning, é benéfico referenciar a arquitetura fundamental.
A Microsoft se empenha em garantir que os serviços do Azure estejam sempre disponíveis. No entanto, podem ocorrer interrupções imprevistas do serviço. É recomendável ter um plano de recuperação de desastres em vigor para lidar com interrupções de serviço regionais. Neste artigo, você aprenderá como:
- Planejar uma implantação de várias regiões do Estúdio de IA do Azure e de seus recursos associados.
- Maximize as chances de recuperar logs, notebooks, imagens do Docker e outros metadados.
- Elaborar a sua solução pensando em alta disponibilidade.
- Iniciar um failover para outra região.
Importante
O Estúdio de IA do Azure por si só não fornece failover automático ou recuperação de desastre.
Entender os serviços do Azure para o Estúdio de IA do Azure
O Estúdio de IA do Azure depende de vários serviços do Azure. Alguns desses serviços são provisionados nasua assinatura. Você é responsável pela configuração de alta disponibilidade desses serviços. A Microsoft gerencia alguns serviços, que são criados em uma assinatura do Microsoft.
Os serviços do Azure incluem:
Infraestrutura do Estúdio de IA do Azure: um ambiente gerenciado pela Microsoft para o hub e o projeto do Estúdio de IA do Azure. A [arquitetura subjacente](documentação de arquitetura do Estúdio de IA do Azure) é fornecida pelo Azure Machine Learning.
Recursos associados necessários: recursos provisionados em sua assinatura durante a criação do hub e do projeto do Estúdio de IA do Azure. Esses recursos incluem o Armazenamento do Microsoft Azure e o Azure Key Vault.
- O armazenamento padrão possui dados como modelo, dados de log de treinamento e referências a ativos de dados.
- O Key Vault tem credenciais para o Armazenamento do Microsoft Azure e conexões.
Recursos associados opcionais: recursos que você pode anexar ao hub do Estúdio de IA do Azure. Esses recursos incluem o Registro de Contêiner do Azure e o Application Insights.
- O registro de contêiner tem uma imagem do Docker para ambientes de treinamento e inferência.
- O Application Insights serve para monitorar o Estúdio de IA do Azure.
Instância de computação: recurso criado após a implantação do hub. Ambientes de desenvolvimento do modelo gerenciado pela Microsoft.
Conexões: o Estúdio de IA do Azure pode se conectar a vários outros serviços. Você é responsável por definir suas configurações de alta disponibilidade.
A tabela a seguir mostra os serviços do Azure que a Microsoft gerencia e os que você gerencia. Ela também indica os serviços altamente disponíveis por padrão.
Serviço | Gerenciado por | Alta disponibilidade por padrão |
---|---|---|
Infraestrutura do Estúdio de IA do Azure | Microsoft | |
Recursos associados | ||
Armazenamento do Azure | Você | |
Key Vault | Você | ✓ |
Registro de Contêiner | Você | |
Application Insights | Você | NA |
Recursos de computação | ||
Instância de computação | Microsoft | |
Qualquer conexão com serviços externos como os Serviços de IA do Azure | Você |
O restante deste artigo descreve as ações que você precisa tomar para tornar cada um desses serviços altamente disponível.
Planejar para implantação em várias regiões
Uma implantação multirregional depende da criação do Estúdio de IA do Azure e de outros recursos (infraestrutura) em duas regiões do Azure. Se ocorrer uma interrupção regional, você poderá alternar para a outra região. Ao planejar onde implantar seus recursos, considere:
Disponibilidade regional: Se possível, utilize uma região da mesma área geográfica, não necessariamente a mais próxima. Para verificar a disponibilidade regional do Estúdio de IA do Azure, confira Produtos do Azure por região.
Regiões emparelhadas do Azure: as regiões emparelhadas coordenam atualizações de plataforma e priorizam os esforços de recuperação conforme necessário. No entanto, nem todas as regiões suportam regiões emparelhadas. Para obter mais informações, consulte Regiões emparelhadas do Azure.
Disponibilidade do serviço: decida se os recursos usados na sua solução devem ser hot/hot, hot/warm ou hot/cold.
- Hot/hot: ambas as regiões estão ativas ao mesmo tempo, e uma delas está pronta para uso imediato.
- Hot/warm: região primária ativa, região secundária tem recursos críticos (por exemplo, modelos implantados) prontos para iniciar. Os recursos não críticos precisariam ser implantados manualmente na região secundária.
- Camada de acesso frequente/fria: região primária ativa, região secundária tem o Estúdio de IA do Azure e outros recursos já implantados, juntamente com os dados necessários. Recursos como modelos, implantações de modelo ou pipelines precisariam ser implantados manualmente.
Dica
Dependendo dos requisitos de negócios, você pode decidir tratar diferentes recursos do Estúdio de IA do Azure de forma diferente.
O Estúdio de IA do Azure se baseia em outros serviços. Alguns serviços podem ser configurados para replicar para outras regiões. Outros precisam ser criados manualmente em várias regiões. A tabela a seguir fornece uma lista de serviços, quem é responsável pela replicação, e uma visão geral da configuração:
Serviço do Azure | Replicado geograficamente por | Configuração |
---|---|---|
Hub e projetos do Estúdio de IA | Você | Crie um hub/projetos nas regiões selecionadas. |
Computação do Estúdio de IA | Você | Crie os recursos de computação nas regiões selecionadas. Para recursos de computação que podem ser dimensionados dinamicamente, verifique se ambas as regiões fornecem cota de computação suficiente para suas necessidades. |
Key Vault | Microsoft | Use a mesma instância do Key Vault com o hub e os recursos do Estúdio de IA do Azure em ambas as regiões. O Key Vault faz failover automático para uma região secundária. Para obter mais informações, confira Disponibilidade e redundância do Azure Key Vault. |
Conta de Armazenamento | Você | O Azure Machine Learning não suporta failover de conta de armazenamento padrão usando armazenamento com redundância geográfica (GRS), armazenamento com redundância de zona geográfica (GZRS), armazenamento com redundância geográfica com acesso de leitura (RA-GRS) ou acesso de leitura armazenamento redundante de zona geográfica (RA-GZRS). Configure uma conta de armazenamento de acordo com suas necessidades e, em seguida, use-a para o hub. Todos os projetos subsequentes usam a conta de armazenamento do hub. Para mais informações, confira Redundância do Armazenamento do Microsoft Azure. |
Registro de Contêiner | Microsoft | Configure a instância do Registro de Contêiner para replicar geograficamente registros para a região emparelhada do Estúdio de IA do Azure. Use a mesma instância para ambas as instâncias do hub. Para mais informações, confira Replicação geográfica no Registro de Contêiner do Azure. |
Application Insights | Você | Crie o Application Insights para o hub em ambas as regiões. Para ajustar o período de retenção de dados e os detalhes, consulte coleta de dados, retenção e armazenamento em Application insights. |
Para habilitar a recuperação e reinicialização rápida na região secundária, recomendamos as seguintes práticas de desenvolvimento:
- Use o modelo do Azure Resource Manager. Os modelos são "infraestrutura como código", e permitem que você implante rapidamente os serviços em ambas as regiões.
- Para evitar o descompasso de dados entre as duas regiões, atualize os pipelines de implantação e de integração contínua ao implantar em ambas as regiões.
- Crie atribuições de função para usuários em ambas as regiões.
- Crie recursos de rede como as Redes Virtuais do Microsoft Azure e pontos de extremidade privados em ambas as regiões. Certifique-se de que os usuários tenham acesso a ambos os ambientes de rede. Por exemplo, configurações de VPN e DNS para ambas as redes virtuais.
Projetando para a alta disponibilidade
Zonas de disponibilidade
Certos serviços do Azure suportam zonas de disponibilidade. Para regiões que dão suporte a zonas de disponibilidade, se uma zona ficar inoperante, todos os projetos serão pausados e os dados deverão ser salvos. No entanto, os dados não estarão disponíveis para atualização até que a zona esteja online novamente.
Para obter mais informações, veja Serviço de zona de disponibilidade e suporte regional.
Implantar componentes críticos em várias regiões
Determine o nível de continuidade de negócios que você deseja. O nível pode diferir entre os componentes da sua solução. Por exemplo, talvez você queira ter uma configuração frequente/frequente para pipelines de produção ou implantações de modelo e frequente/fria para implantação.
O Estúdio de IA do Azure é um serviço regional e armazena dados do lado do serviço em uma conta de armazenamento em sua assinatura. Se ocorrer um desastre regional, os dados de serviço não poderão ser recuperados. Mas você pode recuperar os dados armazenados pelo serviço na conta de armazenamento em sua assinatura, considerando que a redundância de armazenamento é imposta. Os dados armazenados do lado do serviço são principalmente metadados (marcas, nomes de ativos, descrições). Não metadados normalmente são armazenados em sua conta de armazenamento, por exemplo, dados carregados.
Para conexões, recomendamos criar dois recursos separados em duas regiões distintas e, em seguida, criar duas conexões para o hub. Por exemplo, se os Serviços de IA forem um recurso crítico para a continuidade dos negócios, criar dois recursos dos Serviços de IA e duas conexões para o hub será uma boa estratégia para a continuidade dos negócios. Com essa configuração, se uma região ficar inoperante, ainda haverá uma região operacional.
Para todos os hubs essenciais para a continuidade dos negócios, implante recursos em duas regiões.
Armazenamento isolado
No cenário em que você está se conectando com dados para personalizar seu aplicativo de IA, normalmente seus conjuntos de dados podem ser usados na IA do Azure, mas também fora dela. O volume do conjunto de dados pode ser muito grande, portanto, pode ser uma boa prática manter esses dados em uma conta de armazenamento separada. Avalie qual estratégia de replicação de dados faz mais sentido para seu caso de uso.
No Estúdio de IA, estabeleça uma conexão com seus dados. Se você tiver várias instâncias do Estúdio de IA em regiões diferente, ainda poderá apontar para a mesma conta de armazenamento porque as conexões funcionam entre regiões.
Iniciar um failover
Continuar o trabalho no hub de failover
Quando o hub primário se tornar indisponível, você poderá alternar para o hub secundário para continuar o desenvolvimento. O Estúdio de IA do Azure não envia automaticamente trabalhos para o hub secundário se houver uma interrupção. Atualize sua configuração de código para apontar para os novos recursos de hub ou projeto. É recomendável evitar codificar referências de hub ou projeto.
O Estúdio de IA do Azure não pode sincronizar ou recuperar artefatos ou metadados entre hubs. Dependendo da estratégia de implantação do aplicativo, talvez seja necessário mover ou recriar artefatos no hub de failover para continuar. Caso você tenha configurado o hub primário e o hub secundário para compartilhar recursos associados com a replicação geográfica habilitada, alguns objetos podem estar diretamente disponíveis no hub de failover. Por exemplo, se ambos os hubs compartilharem as mesmas imagens do Docker, os repositórios de dados configurados e os recursos do Azure Key Vault.
Observação
Qualquer trabalho que estiver em execução quando ocorrer uma interrupção do serviço não será transferido automaticamente para o hub secundário. Também é improvável que os trabalhos sejam retomados e concluídos com êxito no hub primário quando a interrupção for resolvida. Em vez disso, esses trabalhos devem ser reenviados, no hub secundário ou no primário (assim que a interrupção for resolvida).
Opções de recuperação
Exclusão de recursos
Se um hub e seus recursos existentes forem excluídos acidentalmente, haverá alguns recursos que têm a exclusão temporária habilitada, permitindo a recuperação de recursos. Hubs e projetos não dão suporte à exclusão temporária. Um hub ou um projeto excluído não pode ser recuperado. Alguns recursos subjacentes podem dar suporte à exclusão temporária, para que possam ser recuperados. Consulte a tabela para a qual os serviços têm uma opção de exclusão temporária.
Serviço | exclusão temporária habilitada |
---|---|
Hub do Estúdio de IA do Azure | Sem suporte |
Projeto do Estúdio de IA do Azure | Sem suporte |
Recursos dos Serviços de IA do Azure | Yes |
Armazenamento do Azure | Consulte Recuperar uma conta de armazenamento excluída. |
Cofre de Chave do Azure | Yes |
Próximas etapas
- Para saber mais sobre implantações de infraestrutura seguras com o Estúdio de IA do Azure, consulte Criar um hub seguro.
- Para obter informações sobre o SLA, consulteContratos de Nível de Serviço do Azure.