Projetar uma solução de integração de dados com o Azure Data Lake
Um data lake é um repositório de dados armazenados no seu formato natural, habitualmente como blobs ou ficheiros. O Azure Data Lake Storage é uma solução de data lake abrangente, dimensionável e económica para análises de macrodados integrada no Azure. O Azure Data Lake Storage combina um sistema de ficheiros com uma plataforma de armazenamento para ajudar a identificar rapidamente as informações nos seus dados. A solução se baseia nos recursos do Armazenamento de Blobs do Azure para fornecer otimizações para cargas de trabalho de análise. Essa integração permite recursos de desempenho analítico, alta disponibilidade, segurança e durabilidade do Armazenamento do Azure.
Nota
A implementação atual do serviço é o Azure Data Lake Storage Gen2.
Coisas a saber sobre o Armazenamento Azure Data Lake
Para entender melhor o Armazenamento do Azure Data Lake, vamos examinar as seguintes características.
- O Armazenamento Azure Data Lake pode armazenar qualquer tipo de dados usando o formato nativo dos dados. Com suporte para qualquer formato de dados e tamanhos de dados massivos, o Armazenamento Azure Data Lake pode trabalhar com dados estruturados, semiestruturados e não estruturados.
- A solução foi projetada principalmente para funcionar com o Hadoop e todas as estruturas que usam o Apache Hadoop Distributed File System (HDFS) como sua camada de acesso a dados. As estruturas de análise de dados que usam o HDFS como sua camada de acesso a dados podem acessar diretamente.
- O Armazenamento Azure Data Lake oferece suporte a alta taxa de transferência para análises e movimentos de dados intensivos de entrada e saída.
- O modelo de controle de acesso do Armazenamento do Azure Data Lake dá suporte às listas de controle de acesso (ACLs) baseadas em função do Azure (RBAC) e às ACLs (Portable Operating System Interface for UNIX) do UNIX.
- O Armazenamento Azure Data Lake utiliza modelos de replicação de Blob do Azure. Esses modelos fornecem redundância de dados em um único datacenter com armazenamento localmente redundante (LRS).
- O Armazenamento Azure Data Lake oferece armazenamento massivo e aceita vários tipos de dados para análise.
- O preço do Armazenamento Azure Data Lake é calculado de acordo com os níveis de Armazenamento de Blob do Azure.
Como funciona o Armazenamento Azure Data Lake
Há três etapas importantes para usar o Armazenamento do Azure Data Lake:
Ingerir dados. O Armazenamento Azure Data Lake oferece muitos métodos diferentes de ingestão de dados:
- Para dados não planejados, você pode usar ferramentas como AzCopy, a CLI do Azure, o PowerShell e o Gerenciador de Armazenamento do Azure.
- Para dados relacionais, o serviço Azure Data Factory pode ser usado. Você pode transferir dados de qualquer fonte, como Azure Cosmos DB, Banco de Dados SQL, instâncias gerenciadas do SQL do Azure e muito mais.
- Para streaming de dados, você pode usar ferramentas como Apache Storm no Azure HDInsight, Azure Stream Analytics e assim por diante.
O diagrama a seguir mostra como dados não planejados e dados de streaming são ingeridos em massa ou não planejados no Armazenamento do Azure Data Lake.
Aceda aos dados armazenados. A maneira mais fácil de acessar seus dados é usar o Gerenciador de Armazenamento do Azure. O Gerenciador de Armazenamento é um aplicativo autônomo com uma interface gráfica do usuário (GUI) para acessar seus dados do Armazenamento do Azure Data Lake. Você também pode usar o PowerShell, a CLI do Azure, a CLI do HDFS ou outros SDKs de linguagem de programação para acessar os dados.
Configure o controle de acesso. Controle quem pode acessar os dados armazenados no Armazenamento do Azure Data Lake implementando um mecanismo de autorização. Você pode escolher Azure RBAC ou ACL.
Cenário de negócio
A Tailwind Traders tem várias fontes de dados, incluindo sites, sistemas de Ponto de Venda (POS), sites de mídia social e dispositivos de Internet das Coisas (IoT). A empresa está interessada em usar o Azure para analisar todos os seus dados comerciais. Você tem a tarefa de fornecer orientação sobre como o Azure pode aprimorar seus sistemas de BI existentes. Você precisa aconselhar a equipe sobre como os recursos de armazenamento do Azure podem agregar valor à solução de BI da empresa. Para cumprir os requisitos de dados, você planeja recomendar o Armazenamento do Azure Data Lake. O Data Lake Storage fornece um repositório onde poderá carregar e armazenar enormes quantidades de dados não estruturados com o objetivo de uma análise de macrodados de alto desempenho.
Vamos analisar como o Armazenamento Azure Data Lake pode ser a escolha certa para os requisitos de big data da organização.
Scenario | Solução |
---|---|
Forneça um armazém de dados na nuvem para gerir grandes volumes de dados. | O Armazenamento Azure Data Lake é executado em hardware virtual na plataforma Azure. O armazenamento é escalável, rápido e confiável sem incorrer em grandes cargas. Ele separa os custos de armazenamento dos custos de computação. À medida que o volume de dados cresce, apenas os requisitos de armazenamento mudam. |
Ofereça suporte a uma coleção diversificada de tipos de dados, como arquivos JSON, CSV, arquivos de log ou outros formatos. | O Armazenamento Azure Data Lake permite a democratização de dados para sua organização armazenando todos os seus formatos de dados (incluindo dados brutos) em um único local. Ao eliminar silos de dados, seus usuários podem usar ferramentas como o Azure Data Explorer para acessar e trabalhar com cada item de dados em sua conta de armazenamento. |
Habilite a ingestão e o armazenamento de dados em tempo real. | O Armazenamento Azure Data Lake pode ingerir dados em tempo real diretamente de uma instância do Apache Storm no Azure HDInsight, Azure IoT Hub, Azure Event Hubs ou Azure Stream Analytics. Ele também funciona com dados semiestruturados e permite que você ingira todos os seus dados em tempo real em sua conta de armazenamento. |
Coisas a considerar ao escolher o Armazenamento de Blobs do Azure ou o Azure Data Lake
A tabela a seguir compara os critérios da solução de armazenamento para usar o Armazenamento de Blob do Azure versus o Azure Data Lake. Analise os critérios e considere qual solução é ideal para os Tailwind Traders.
Comparar | Azure Data Lake | Armazenamento de Blobs do Azure |
---|---|---|
Tipos de dados | Bom para armazenar grandes volumes de dados de texto | Bom para armazenar dados não estruturados baseados em texto, como fotos, vídeos e backups |
Redundância geográfica | Deve configurar manualmente a replicação de dados | Fornece armazenamento com redundância geográfica por padrão |
Namespaces (Espaços de nomes) | Suporta namespaces hierárquicos | Suporta namespaces simples |
Compatibilidade com Hadoop | Os serviços Hadoop podem usar dados armazenados no Azure Data Lake | Usando o Driver do Sistema de Arquivos de Blob do Azure, os aplicativos e estruturas podem acessar dados no Armazenamento de Blob do Azure |
Segurança | Suporta acesso granular | O acesso granular não é suportado |