Usando o Azure Data Lake Storage Gen1 para requisitos de big data
Nota
O Azure Data Lake Storage Gen1 foi desativado. Veja o anúncio da aposentadoria aqui. Os recursos do Data Lake Storage Gen1 não estão mais acessíveis.
Existem quatro etapas principais no processamento de big data:
- Ingerir grandes quantidades de dados em um armazenamento de dados, em tempo real ou em lotes
- Tratamento dos dados
- Download dos dados
- Visualizar os dados
Neste artigo, examinamos esses estágios em relação ao Azure Data Lake Storage Gen1 para entender as opções e ferramentas disponíveis para atender às suas necessidades de big data.
Ingerir dados no Data Lake Storage Gen1
Esta seção destaca as diferentes fontes de dados e as diferentes maneiras pelas quais esses dados podem ser ingeridos em uma conta do Data Lake Storage Gen1.
Dados ad hoc
Isso representa conjuntos de dados menores que são usados para prototipar um aplicativo de big data. Existem diferentes formas de ingerir dados ad hoc, dependendo da fonte dos dados.
Origem de Dados | Ingerir utilizando |
---|---|
Computador local | |
Azure Storage Blob |
Dados transmitidos
Isso representa dados que podem ser gerados por várias fontes, como aplicativos, dispositivos, sensores, etc. Esses dados podem ser ingeridos no Data Lake Storage Gen1 por uma variedade de ferramentas. Essas ferramentas geralmente capturam e processam os dados evento a evento em tempo real e, em seguida, gravam os eventos em lotes no Data Lake Storage Gen1 para que possam ser processados posteriormente.
A seguir estão as ferramentas que você pode usar:
- Azure Stream Analytics - Os eventos ingeridos em Hubs de Eventos podem ser gravados no Azure Data Lake Storage Gen1 usando uma saída do Azure Data Lake Storage Gen1.
- EventProcessorHost – Você pode receber eventos de Hubs de Eventos e gravá-los no Data Lake Storage Gen1 usando o SDK .NET do Data Lake Storage Gen1.
Dados relacionais
Você também pode originar dados de bancos de dados relacionais. Ao longo de um período de tempo, os bancos de dados relacionais coletam enormes quantidades de dados que podem fornecer insights importantes se processados por meio de um pipeline de big data. Você pode usar as seguintes ferramentas para mover esses dados para o Data Lake Storage Gen1.
Dados de log do servidor Web (upload usando aplicativos personalizados)
Esse tipo de conjunto de dados é especificamente chamado porque a análise de dados de log do servidor Web é um caso de uso comum para aplicativos de big data e requer que grandes volumes de arquivos de log sejam carregados no Data Lake Storage Gen1. Você pode usar qualquer uma das seguintes ferramentas para escrever seus próprios scripts ou aplicativos para carregar esses dados.
Para carregar dados de log do servidor da Web e também para carregar outros tipos de dados (por exemplo, dados de sentimentos sociais), é uma boa abordagem escrever seus próprios scripts/aplicativos personalizados, pois oferece a flexibilidade de incluir seu componente de upload de dados como parte de seu aplicativo de big data maior. Em alguns casos, esse código pode assumir a forma de um script ou utilitário de linha de comando simples. Em outros casos, o código pode ser usado para integrar o processamento de big data em um aplicativo ou solução de negócios.
Dados associados a clusters do Azure HDInsight
A maioria dos tipos de cluster HDInsight (Hadoop, HBase, Storm) oferece suporte ao Data Lake Storage Gen1 como um repositório de armazenamento de dados. Os clusters HDInsight acessam dados de Blobs de Armazenamento do Azure (WASB). Para obter um melhor desempenho, você pode copiar os dados do WASB para uma conta do Data Lake Storage Gen1 associada ao cluster. Você pode usar as seguintes ferramentas para copiar os dados.
Dados armazenados em clusters Hadoop locais ou IaaS
Grandes quantidades de dados podem ser armazenadas em clusters Hadoop existentes, localmente em máquinas que usam HDFS. Os clusters Hadoop podem estar em uma implantação local ou em um cluster IaaS no Azure. Pode haver requisitos para copiar esses dados para o Azure Data Lake Storage Gen1 para uma abordagem única ou de forma recorrente. Existem várias opções que você pode usar para conseguir isso. Abaixo está uma lista de alternativas e os compromissos associados.
Abordagem | Detalhes | Vantagens | Considerações |
---|---|---|---|
Usar o Azure Data Factory (ADF) para copiar dados diretamente de clusters Hadoop para o Azure Data Lake Storage Gen1 | O ADF suporta HDFS como fonte de dados | O ADF fornece suporte pronto para uso para HDFS e gerenciamento e monitoramento de ponta a ponta de primeira classe | Requer que o Data Management Gateway seja implantado no local ou no cluster IaaS |
Exporte dados do Hadoop como arquivos. Em seguida, copie os arquivos para o Azure Data Lake Storage Gen1 usando o mecanismo apropriado. | Você pode copiar arquivos para o Azure Data Lake Storage Gen1 usando:
|
Rápido para começar. Pode fazer uploads personalizados | Processo em várias etapas que envolve várias tecnologias. A gestão e a monitorização tornar-se-ão um desafio ao longo do tempo, dada a natureza personalizada das ferramentas |
Use o Distcp para copiar dados do Hadoop para o Armazenamento do Azure. Em seguida, copie os dados do Armazenamento do Azure para o Data Lake Storage Gen1 usando o mecanismo apropriado. | Você pode copiar dados do Armazenamento do Azure para o Data Lake Storage Gen1 usando: | Você pode usar ferramentas de código aberto. | Processo em várias etapas que envolve várias tecnologias |
Conjuntos de dados realmente grandes
Para carregar conjuntos de dados que variam em vários terabytes, usar os métodos descritos acima às vezes pode ser lento e caro. Nesses casos, você pode usar as opções abaixo.
Usando o Azure ExpressRoute. O Azure ExpressRoute permite criar conexões privadas entre os datacenters do Azure e a infraestrutura em suas instalações. Isso fornece uma opção confiável para transferir grandes quantidades de dados. Para obter mais informações, consulte a documentação do Azure ExpressRoute.
Carregamento de dados "offline". Se o uso do Azure ExpressRoute não for viável por qualquer motivo, você poderá usar o serviço de Importação/Exportação do Azure para enviar unidades de disco rígido com seus dados para um data center do Azure. Seus dados são carregados primeiro nos Blobs de Armazenamento do Azure. Em seguida, você pode usar o Azure Data Factory ou a ferramenta AdlCopy para copiar dados de Blobs de Armazenamento do Azure para o Data Lake Storage Gen1.
Nota
Ao usar o serviço Importar/Exportar, os tamanhos de arquivo nos discos enviados para o data center do Azure não devem ser maiores que 195 GB.
Processar dados armazenados no Data Lake Storage Gen1
Quando os dados estiverem disponíveis no Data Lake Storage Gen1, você poderá executar a análise desses dados usando os aplicativos de big data suportados. Atualmente, você pode usar o Azure HDInsight e o Azure Data Lake Analytics para executar trabalhos de análise de dados nos dados armazenados no Data Lake Storage Gen1.
Pode ver os seguintes exemplos.
- Criar um cluster HDInsight com o Data Lake Storage Gen1 como armazenamento
- Usar a Análise do Azure Data Lake com o Data Lake Storage Gen1
Baixar dados do Data Lake Storage Gen1
Você também pode querer baixar ou mover dados do Azure Data Lake Storage Gen1 para cenários como:
- Mova dados para outros repositórios para interagir com seus pipelines de processamento de dados existentes. Por exemplo, talvez você queira mover dados do Data Lake Storage Gen1 para o Banco de Dados SQL do Azure ou o SQL Server.
- Transfira dados para o seu computador local para processamento em ambientes IDE enquanto cria protótipos de aplicações.
Nesses casos, você pode usar qualquer uma das seguintes opções:
Você também pode usar os seguintes métodos para escrever seu próprio script/aplicativo para baixar dados do Data Lake Storage Gen1.
Visualize dados no Data Lake Storage Gen1
Você pode usar uma combinação de serviços para criar representações visuais de dados armazenados no Data Lake Storage Gen1.
- Você pode começar usando o Azure Data Factory para mover dados do Data Lake Storage Gen1 para o Azure Synapse Analytics
- Depois disso, você pode integrar o Power BI ao Azure Synapse Analytics para criar uma representação visual dos dados.