Migrar clusters Apache Hadoop locais para o Azure HDInsight - motivação e benefícios
Este artigo é o primeiro de uma série sobre práticas recomendadas para migrar implantações de ecossistema Apache Hadoop locais para o Azure HDInsight. Esta série de artigos destina-se a pessoas responsáveis pelo design, implantação e migração de soluções Apache Hadoop no Azure HDInsight. As funções que podem se beneficiar desses artigos incluem arquitetos de nuvem, administradores de Hadoop e engenheiros de DevOps. Desenvolvedores de software, engenheiros de dados e cientistas de dados também devem se beneficiar da explicação de como diferentes tipos de clusters funcionam na nuvem.
Por que migrar para o Azure HDInsight
O Azure HDInsight é uma distribuição em nuvem de componentes do Hadoop. O Azure HDInsight torna mais fácil, rápido e rentável processar quantidades enormes de dados. O HDInsight inclui as estruturas de código aberto mais populares, como:
- Apache Hadoop
- Apache Spark
- Apache Hive com LLAP
- Apache Kafka
- Apache HBase
Vantagens do Azure HDInsight em relação ao Hadoop local
Baixo custo - Os custos podem ser reduzidos criando clusters sob demanda e pagando apenas pelo que você usa. A computação e o armazenamento dissociados proporcionam flexibilidade, mantendo o volume de dados independente do tamanho do cluster.
Criação automatizada de clusters - A criação automatizada de clusters requer instalação e configuração mínimas. A automação pode ser usada para clusters sob demanda.
Hardware e configuração gerenciados - Não há necessidade de se preocupar com o hardware físico ou a infraestrutura com um cluster HDInsight. Basta especificar a configuração do cluster e o Azure a configura.
Facilmente escalável - O HDInsight permite dimensionar cargas de trabalho para cima ou para baixo. O Azure cuida da redistribuição de dados e do reequilíbrio da carga de trabalho sem interromper os trabalhos de processamento de dados.
Disponibilidade global - O HDInsight está disponível em mais regiões do que qualquer outra oferta de análise de big data. O Azure HDInsight também está disponível no Azure Government, na China e na Alemanha, o que lhe permite satisfazer as suas necessidades empresariais nas principais áreas soberanas.
Seguro e compatível - O HDInsight permite que você proteja seus ativos de dados corporativos com a Rede Virtual do Azure, criptografia e integração com o Microsoft Entra ID. O HDInsight também cumpre os padrões de conformidade mais populares da indústria e do governo.
Gerenciamento simplificado de versões - o Azure HDInsight gerencia a versão dos componentes do ecossistema Hadoop e os mantém atualizados. As atualizações de software geralmente são um processo complexo para implantações locais.
Clusters menores otimizados para cargas de trabalho específicas com menos dependências entre componentes - Uma configuração Hadoop local típica usa um único cluster que serve a muitos propósitos. Com o Azure HDInsight, clusters específicos de carga de trabalho podem ser criados. A criação de clusters para cargas de trabalho específicas elimina a complexidade de manter um único cluster com complexidade crescente.
Produtividade - Você pode usar várias ferramentas para Hadoop e Spark em seu ambiente de desenvolvimento preferido.
Extensibilidade com ferramentas personalizadas ou aplicativos de terceiros - os clusters HDInsight podem ser estendidos com componentes instalados e também podem ser integrados com outras soluções de big data usando implantações de um clique do Azure Marketplace.
Fácil gerenciamento, administração e monitoramento - o Azure HDInsight integra-se aos logs do Azure Monitor para fornecer uma interface única com a qual você pode monitorar todos os seus clusters.
Integração com outros serviços do Azure - o HDInsight pode ser facilmente integrado com outros serviços populares do Azure, como os seguintes:
- Azure Data Factory (ADF)
- Armazenamento de Blobs do Azure
- Azure Data Lake Storage Gen2
- BD do Cosmos para o Azure
- Base de Dados SQL do Azure
- Azure Analysis Services
Processos e componentes de autorrecuperação - O HDInsight verifica constantemente a infraestrutura e os componentes de código aberto usando sua própria infraestrutura de monitoramento. Ele também recupera automaticamente falhas críticas, como indisponibilidade de componentes e nós de código aberto. Os alertas são acionados no Ambari se algum componente OSS falhar.
Para obter mais informações, consulte o artigo O que é o Azure HDInsight e a pilha de tecnologia Apache Hadoop.
Processo de planeamento da migração
As etapas a seguir são recomendadas para planejar uma migração de clusters Hadoop locais para o Azure HDInsight:
- Entenda a implantação local e as topologias atuais.
- Entenda o escopo atual do projeto, os cronogramas e a experiência da equipe.
- Entenda os requisitos do Azure.
- Construa um plano detalhado com base nas melhores práticas.
Recolha de detalhes para preparar uma migração
Esta seção fornece modelos de questionários para ajudar a reunir informações importantes sobre:
- A implantação local
- Detalhes do projeto
- Requisitos do Azure
Questionário de implantação local
Pergunta | Exemplo | Resposta: |
---|---|---|
Tema: Ambiente | ||
Versão da Distribuição de Cluster | HDP 2.6.5, CDH 5.7 | |
Componentes do ecossistema de Big Data | HDFS, Fios, Colmeia, LLAP, Impala, Kudu, HBase, Faísca, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcão, Zeppelin, R | |
Tipos de cluster | Hadoop, Faísca, Confluente Kafka, Solr | |
Número de clusters | 4 | |
Número de nós mestres | 2 | |
Número de nós de trabalho | 100 | |
Número de nós de borda | 5 | |
Espaço total em disco | 100 TB | |
Configuração do nó mestre | m/y, cpu, disco, etc. | |
Configuração de nós de dados | m/y, cpu, disco, etc. | |
Configuração de nós de borda | m/y, cpu, disco, etc. | |
Encriptação HDFS? | Sim | |
Elevada Disponibilidade | HDFS HA, Metastore HA | |
Recuperação de desastres / Backup | Cluster de backup? | |
Sistemas dependentes do Cluster | SQL Server, Teradata, Power BI, MongoDB | |
Integrações de terceiros | Tableau, GridGain, Qubole, Informática, Splunk | |
Tópico: Segurança | ||
Segurança de perímetro | Firewalls | |
Autenticação de cluster e autorização | Ative Directory, Ambari, Cloudera Manager, Sem autenticação | |
Controlo de Acesso HDFS | Manual, usuários ssh | |
Autenticação do Hive e autorização | Sentinela, LDAP, AD com Kerberos, Ranger | |
Auditoria | Ambari, Cloudera Navigator, Ranger | |
Monitorização | Grafite, recolhido, , Telegraf, statsd InfluxDB |
|
Alertas | Kapacitor , Prometheus, Datadog |
|
Duração da retenção de dados | Três anos, cinco anos | |
Administradores de cluster | Administrador único, vários administradores |
Questionário de detalhes do projeto
Pergunta | Exemplo | Resposta: |
---|---|---|
Tópico: Cargas de trabalho e frequência | ||
Trabalhos do MapReduce | 10 empregos - duas vezes por dia | |
Vagas de Hive | 100 empregos - a cada hora | |
Trabalhos em lote do Spark | 50 trabalhos - a cada 15 minutos | |
Vagas de Spark Streaming | 5 trabalhos - a cada 3 minutos | |
Trabalhos de Streaming estruturado | 5 trabalhos - a cada minuto | |
Linguagens de Programação | Python, Scala, Java | |
Scripting | Shell, Python | |
Tópico: Dados | ||
Origens de dados | Arquivos simples, Json, Kafka, RDBMS | |
Orquestração de dados | Fluxos de trabalho Oozie, fluxo de ar | |
Em pesquisas de memória | Apache Ignite, Redis | |
Destinos dos dados | HDFS, RDBMS, Kafka, MPP | |
Tópico: Metadados | ||
Tipo de banco de dados do Hive | Mysql, Postgres | |
Número de metastores do Hive | 2 | |
Número de tabelas Hive | 100 | |
Número de apólices Ranger | 20 | |
Número de fluxos de trabalho do Oozie | 100 | |
Tópico: Escala | ||
Volume de dados, incluindo replicação | 100 TB | |
Volume de ingestão diária | 50 GB | |
Taxa de crescimento de dados | 10% ao ano | |
Taxa de crescimento de nós de cluster | 5% ao ano | |
Tópico: Utilização do cluster | ||
Média de CPU % utilizada | 60% | |
Memória média % utilizada | 75% | |
Espaço em disco utilizado | 75% | |
Rede média % utilizada | 25% | |
Tópico: Pessoal | ||
Número de administradores | 2 | |
Número de desenvolvedores | 10 | |
Número de utilizadores finais | 100 | |
Competências | Hadoop, Faísca | |
Número de recursos disponíveis para os esforços de migração | 2 | |
Tópico: Limitações | ||
Limitações atuais | A latência é alta | |
Desafios atuais | Emissão de simultaneidade |
Questionário de requisitos do Azure
Pergunta | Exemplo | Resposta: |
---|---|---|
Tema: Infraestrutura | ||
Região preferida | E.U.A Leste | |
VNet preferido? | Sim | |
HA / DR necessário? | Sim | |
Integração com outros serviços na nuvem? | ADF, Azure Cosmos DB | |
Tópico: Movimentação de dados | ||
Preferência de carga inicial | DistCp, Caixa de dados, ADF, WANDisco | |
Delta de transferência de dados | DistCp, AzCopy | |
Transferência de dados incremental contínua | DistCp, Sqoop | |
Tópico: Monitoramento & Alertas | ||
Usar o Azure Monitoring & Alerting vs Integrar monitoramento de terceiros | Usar o Azure Monitoring & Alerting | |
Tópico: Preferências de segurança | ||
Pipeline de dados privados e protegidos? | Sim | |
Cluster ingressado no domínio (ESP)? | Sim | |
Sincronização do AD local com a nuvem? | Sim | |
Número de utilizadores do AD a sincronizar? | 100 | |
Ok para sincronizar senhas com a nuvem? | Sim | |
Utilizadores apenas na nuvem? | Sim | |
MFA necessário? | Não | |
Requisitos de autorização de dados? | Sim | |
Controle de acesso baseado em função? | Sim | |
Auditoria necessária? | Sim | |
Criptografia de dados em repouso? | Sim | |
Encriptação de dados em trânsito? | Sim | |
Tópico: Preferências de rearquitetura | ||
Cluster único vs Tipos de cluster específicos | Tipos de cluster específicos | |
Armazenamento colocalizado vs armazenamento remoto? | Armazenamento remoto | |
Tamanho menor do cluster à medida que os dados são armazenados remotamente? | Tamanho menor do cluster | |
Usar vários clusters menores em vez de um único cluster grande? | Usar vários clusters menores | |
Usar um metastore remoto? | Sim | |
Compartilhar metastores entre clusters diferentes? | Sim | |
Desconstruir cargas de trabalho? | Substitua trabalhos do Hive por trabalhos do Spark | |
Usar o ADF para orquestração de dados? | Não |
Próximos passos
Leia o próximo artigo desta série: