Elaborar uma solução de integração de dados com o Azure Data Lake

Concluído

Um Data Lake é um repositório de dados armazenados em seu formato natural, geralmente como blobs ou arquivos. O Azure Data Lake Storage é uma solução de data lake abrangente, escalonável e econômica para análise de Big Data criada no Azure. O Azure Data Lake Storage combina um sistema de arquivos com uma plataforma de armazenamento para ajudá-lo a identificar rapidamente insights sobre seus dados. A solução se baseia em recursos de Armazenamento de Blobs do Azure para fornecer otimizações para cargas de trabalho de análise. Essa integração permite recursos analíticos de desempenho, alta disponibilidade, segurança e durabilidade do Armazenamento do Azure.

Observação

A implementação atual do serviço é o Azure Data Lake Storage Gen2.

Tópicos importantes sobre o Azure Data Lake Storage

Para entender melhor o Azure Data Lake Storage, examine as características a seguir.

  • O Azure Data Lake Storage pode armazenar qualquer tipo de dados usando o formato nativo dos dados. Com suporte para qualquer formato de dados e tamanhos de dados massivos, o Azure Data Lake Storage pode trabalhar com dados estruturados, semiestruturados e não estruturados.
  • A solução foi projetada principalmente para trabalhar com o Hadoop e todas as estruturas que usam o HDFS (Sistema de Arquivos Distribuído do Apache Hadoop) como a camada de acesso a dados. Estruturas de análise de dados que usam HDFS como sua camada de acesso a dados podem acessar diretamente.
  • O Azure Data Lake Storage dá suporte a uma alta taxa de transferência para análise intensiva de entrada/saída e movimentação de dados.
  • O Azure Data Lake Storage oferece suporte tanto ao controle de acesso baseado em função (RBAC) do Azure quanto às listas de controle de acesso (ACLs) da interface de sistema operacional portátil para Unix (POSIX).
  • O Azure Data Lake Storage utiliza os modelos de replicação de blobs do Azure. Esses modelos fornecem redundância de dados em um único datacenter com armazenamento com redundância local (LRS).
  • O Azure Data Lake Storage oferece armazenamento de grandes quantidades de dados e aceita vários tipos de dados para análise.
  • O preço do Azure Data Lake Storage é definido em níveis do Armazenamento de Blobs do Azure.

Como o Azure Data Lake Storage funciona

Há três etapas importantes para usar o Azure Data Lake Storage:

  1. Ingerir dados. O Azure Data Lake Storage oferece vários métodos diferentes de ingestão de dados:

    • Para dados não planejados, você pode usar ferramentas como o AzCopy, a CLI do Azure, o PowerShell e Gerenciador de Armazenamento do Azure.
    • Para dados relacionais, use o serviço do Azure Data Factory. Você pode transferir dados de qualquer fonte, como Azure Cosmos DB, Banco de Dados SQL, Instâncias Gerenciadas de SQL do Azure e muito mais.
    • Para streaming de dados, use ferramentas como Apache Storm no Azure HDInsight, Azure Stream Analytics etc.

    O diagrama a seguir mostra como os dados não planejados e os dados de streaming são ingeridos em massa ou de modo não planejado no Azure Data Lake Storage.

    Diagrama que mostra como os dados não planejados e os dados de streaming são ingeridos em massa ou então de modo não planejado no Azure Data Lake Storage.

  2. Acessar dados armazenados. A maneira mais fácil de acessar seus dados é usando o Gerenciador de Armazenamento do Azure. O Gerenciador de Armazenamento é um aplicativo autônomo com uma GUI (interface gráfica do usuário) para acessar seus dados do Azure Data Lake Storage. Você também pode usar o PowerShell, a CLI do Azure, a CLI do HDFS ou outros SDKs de linguagem de programação para acessar os dados.

  3. Configurar o controle de acesso. Controle quem pode acessar os dados armazenados no Azure Data Lake Storage implementando um mecanismo de autorização. Você pode escolher a ACL ou o RBAC do Azure.

Cenário empresarial

A Tailwind Traders tem várias fontes de dados, incluindo sites, sistemas de PDV (ponto de venda), sites de mídias sociais e dispositivos de IoT (Internet das Coisas). A empresa está interessada em usar o Azure para analisar todos os próprios dados de negócios. Você tem a tarefa de fornecer diretrizes sobre como o Azure pode aprimorar os sistemas de BI existentes deles. Você precisa aconselhar a equipe sobre como os recursos de armazenamento do Azure podem agregar valor à solução de BI da empresa. Para atender aos requisitos de dados, você planeja recomendar o Azure Data Lake Storage. O Data Lake Storage fornece um repositório em que você pode carregar e armazenar enormes quantidades de dados não estruturados, buscando uma análise de Big Data de alto desempenho.

Vamos examinar como Azure Data Lake Storage pode ser a escolha certa para os requisitos de Big Data da organização.

Cenário Solução
Fornecer um data warehouse na nuvem para gerenciar grandes volumes de dados. O Azure Data Lake Storage é executado em hardware virtual na plataforma do Azure. O armazenamento é escalonável, rápido e confiável sem incorrer em encargos maciços. Ele separa os custos de armazenamento dos custos de computação. À medida que o volume de dados cresce, apenas os requisitos de armazenamento são alterados.
Dar suporte a uma coleção diversificada de tipos de dados, como arquivos JSON, CSV, arquivos de log ou outros formatos. O Azure Data Lake Storage permite a democratização de dados para sua organização, armazenando todos os seus formatos de dados (incluindo dados brutos) em um único local. A eliminação de silos de dados permite que os usuários empreguem ferramentas como o Azure Data Explorer para acessar e trabalhar com cada item de dados nas próprias contas de armazenamento.
Habilitar a ingestão e o armazenamento de dados em tempo real. O Azure Data Lake Storage pode ingerir dados em tempo real diretamente de uma instância do Apache Storm no Azure HDInsight, Hub IoT do Azure, Hubs de Eventos do Azure ou Azure Stream Analytics. Ele também funciona com dados semiestruturados e permite ingerir todos os seus dados em tempo real na conta de armazenamento.

O que considerar ao escolher o Armazenamento de Blobs do Azure ou o Azure Data Lake

A tabela a seguir compara os critérios da solução de armazenamento para usar Armazenamento de Blobs do Azure versus o Azure Data Lake. Examine os critérios e considere qual solução é ideal para a Tailwind Traders.

Comparar Azure Data Lake Armazenamento do Blobs do Azure
Tipos de dados Boa para armazenar grandes volumes de dados de texto Bom para armazenar dados não estruturados não baseados em texto, como fotos, vídeos e backups
Redundância geográfica Precisa configurar manualmente a replicação de dados Fornece armazenamento com redundância geográfica por padrão
Namespaces Suporte a namespaces hierárquicos Suporte a namespaces simples
Compatibilidade do Hadoop Os serviços do Hadoop podem usar dados armazenados no Azure Data Lake Usando o Blob Filesystem Driver do Azure, aplicativos e estruturas podem acessar dados no Armazenamento de Blobs do Azure
Segurança Dá suporte ao acesso granular Sem suporte para acesso granular