Configurar um laboratório para análise de big data nos Serviços de Laboratório do Azure usando a implantação do Docker da Plataforma de Dados HortonWorks
Importante
O Azure Lab Services será descontinuado a 28 de junho de 2027. Para obter mais informações, consulte o guia de aposentadoria.
Nota
Este artigo faz referência a recursos disponíveis em planos de laboratório, que substituíram as contas de laboratório.
Este artigo mostra como configurar um laboratório para ensinar uma aula de análise de big data. Uma aula de análise de big data ensina os usuários a lidar com grandes volumes de dados. Também os ensina a aplicar algoritmos de aprendizagem automática e estatística para obter insights de dados. Um objetivo fundamental é aprender a usar ferramentas de análise de dados, como o pacote de software de código aberto do Apache Hadoop. O pacote de software fornece ferramentas para armazenar, gerenciar e processar big data.
Neste laboratório, os usuários do laboratório trabalham com uma versão comercial popular do Hadoop fornecida pela Cloudera, chamada Hortonworks Data Platform (HDP). Especificamente, os usuários de laboratório usam o HDP Sandbox 3.0.1 , que é uma versão simplificada e fácil de usar da plataforma. HDP Sandbox 3.0.1 também é gratuito e destina-se à aprendizagem e experimentação. Embora essa classe possa usar máquinas virtuais (VM) Windows ou Linux com HDP Sandbox implantado. Este artigo mostra como usar o Windows.
Outro aspeto interessante é que você implanta o HDP Sandbox nas VMs de laboratório usando contêineres do Docker . Cada contêiner do Docker fornece seu próprio ambiente isolado para que os aplicativos de software sejam executados dentro. Conceitualmente, os contêineres do Docker são como VMs aninhadas e podem ser usados para implantar e executar facilmente uma ampla variedade de aplicativos de software com base em imagens de contêiner fornecidas no Docker Hub. O script de implantação do Cloudera para HDP Sandbox extrai automaticamente a imagem do Docker HDP Sandbox 3.0.1 do Docker Hub e executa dois contêineres do Docker:
- Sandbox-HDP
- proxy de área restrita
Pré-requisitos
Para configurar este laboratório, você precisa acessar uma assinatura do Azure. Discuta com o administrador da sua organização para ver se consegue obter acesso a uma subscrição existente do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.
Configuração de laboratório
Configurações do plano de laboratório
Depois de ter uma assinatura do Azure, você pode criar um plano de laboratório no Azure Lab Services. Para obter mais informações sobre como criar um novo plano de laboratório, consulte Guia de início rápido: configurar recursos para criar laboratórios. Você também pode usar um plano de laboratório existente.
Este laboratório usa imagens do Windows 10 Pro Azure Marketplace como a imagem base da VM. Primeiro, você precisa habilitar essa imagem em seu plano de laboratório. Isso permite que os criadores de laboratório selecionem a imagem como uma imagem base para seu laboratório.
Siga estas etapas para habilitar essas imagens do Azure Marketplace disponíveis para criadores de laboratório. Selecione uma das imagens do Windows 10 Azure Marketplace.
Configurações de laboratório
Crie um laboratório para o seu plano de laboratório. Para obter instruções sobre como criar um laboratório, consulte Tutorial: Configurar um laboratório. Use as seguintes configurações ao criar o laboratório.
Configurações de laboratório | Valor/instruções |
---|---|
Tamanho de Máquina Virtual | Médio (virtualização aninhada). Esse tamanho de VM é mais adequado para bancos de dados relacionais, cache na memória e análises. O tamanho também suporta virtualização aninhada. |
Imagem de Máquina Virtual | Windows 10 Pro |
Nota
Use o tamanho médio (virtualização aninhada) da VM porque a Sandbox HDP usando o Docker requer o Windows Hyper-V com virtualização aninhada e pelo menos 10 GB de RAM.
Configuração da máquina de modelo
Para configurar a máquina de modelos:
- Instalar o Docker
- Implantar HDP Sandbox
- Usar o PowerShell e o Agendador de Tarefas do Windows para iniciar automaticamente os contêineres do Docker
Instalar o Docker
As etapas nesta seção são baseadas nas instruções do Cloudera para implantação com contêineres do Docker.
Para usar contêineres do Docker, você deve primeiro instalar o Docker Desktop na VM de modelo:
Siga as etapas na seção Pré-requisitos para instalar o Docker para Windows.
Importante
Verifique se a opção de configuração Usar contêineres do Windows em vez de contêineres do Linux está desmarcada.
Verifique se os Contêineres do Windows e os recursos do Hyper-V estão ativados.
Siga as etapas na seção Memória para Windows para configurar a configuração de memória do Docker.
Aviso
Se você marcar inadvertidamente a opção Usar contêineres do Windows em vez de contêineres do Linux ao instalar o Docker, não verá as definições de configuração de memória. Para corrigir isso, você pode mudar para o uso de contêineres Linux clicando no ícone do Docker na bandeja do sistema do Windows, quando o menu Docker Desktop abrir, selecione Mudar para contêineres Linux.
Implantar HDP Sandbox
Em seguida, implante o HDP Sandbox e acesse o HDP Sandbox usando o navegador.
Certifique-se de ter instalado o Git Bash conforme listado na seção Pré-requisitos do guia. É recomendado para concluir as próximas etapas.
Usando o Guia de implantação e instalação do Cloudera para Docker, conclua as etapas nas seguintes seções:
- Implantar HDP Sandbox
- Verificar HDP Sandbox
Aviso
Ao baixar o arquivo de .zip mais recente para HDP, certifique-se de não salvar o arquivo .zip em um caminho de diretório que inclua espaço em branco.
Nota
Se você receber uma exceção durante a implantação informando que o Drive não foi compartilhado, precisará compartilhar sua unidade C com o Docker para que os contêineres Linux do HDP possam acessar arquivos locais do Windows. Para corrigir isso, clique no ícone do Docker na bandeja de sistema do Windows para abrir o menu da área de trabalho do Docker e selecione Configurações. Quando a caixa de diálogo Configurações do Docker for aberta, selecione Compartilhamento de arquivos de recursos > e verifique a unidade C. Em seguida, você pode repetir as etapas para implantar o HDP Sandbox.
Quando os contêineres do Docker para HDP Sandbox são implantados e executados, você pode acessar o ambiente iniciando seu navegador. Siga as instruções do Cloudera para abrir a página de boas-vindas do Sandbox e iniciar o painel HDP.
Nota
Estas instruções pressupõem que você primeiro mapeou o endereço IP local do ambiente de área restrita para o sandbox-hdp.hortonworks.com no arquivo host em sua VM de modelo. Se você não fizer esse mapeamento, poderá acessar a página de boas-vindas da Sandbox navegando até
http://localhost:8080
.
Iniciar automaticamente os contêineres do Docker quando os usuários do laboratório entrarem
Para fornecer uma experiência fácil de usar para usuários de laboratório, crie um script do PowerShell que automaticamente:
- Inicia os contêineres do HDP Sandbox Docker quando um usuário de laboratório inicia e se conecta à VM de laboratório.
- Inicia o navegador e navega até a página de boas-vindas da Sandbox.
Use o Agendador de Tarefas do Windows para executar automaticamente esse script quando um usuário de laboratório fizer logon em sua VM. Para configurar um Agendador de Tarefas, siga estas etapas: Script do Big Data Analytics.
Conclusão
Este artigo orientou você pelas etapas necessárias para criar um laboratório para uma classe de análise de big data. A classe de análise de big data usa a Hortonworks Data Platform implantada com o Docker. A configuração para esse tipo de classe pode ser usada para classes de análise de dados semelhantes. Essa configuração também pode ser aplicável a outros tipos de classes que usam o Docker para implantação.
Próximos passos
A imagem do modelo agora pode ser publicada no laboratório. Para obter mais informações, consulte Publicar a VM de modelo.
Ao configurar seu laboratório, consulte os seguintes artigos: