Use o Azure Data Lake Storage Gen2 em cargas de trabalho de análise de dados
O Azure Data Lake Store Gen2 é uma tecnologia que habilita vários casos de uso de análise de dados. Vamos explorar alguns tipos comuns de carga de trabalho analítica e identificar como o Azure Data Lake Storage Gen2 funciona com outros serviços do Azure para dar suporte a eles.
Processamento e análise de Big Data
Os cenários de Big Data geralmente se referem a cargas de trabalho analíticas que envolvem grandes volumes de dados em uma variedade de formatos que precisam ser processados em uma velocidade rápida - os chamados "três vs". O Azure Data Lake Storage Gen 2 fornece um armazenamento de dados distribuído escalonável e seguro no qual serviços de Big Data, como o Azure Synapse Analytics, o Azure Databricks e o Azure HDInsight, podem aplicar estruturas de processamento de dados, como o Apache Spark, o Hive e o Hadoop. A natureza distribuída do armazenamento e da computação de processamento permite que as tarefas sejam executadas em paralelo, resultando em alto desempenho e escalabilidade, mesmo ao processar grandes quantidades de dados.
Data warehousing
O data warehouse evoluiu nos últimos anos para integrar grandes volumes de dados armazenados como arquivos em um data lake com tabelas relacionais em um data warehouse. Em um exemplo típico de uma solução de data warehouse, os dados são extraídos de armazenamentos de dados operacionais, como o Banco de Dados SQL do Azure ou o Azure Cosmos DB, e transformados em estruturas mais adequadas para cargas de trabalho analíticas. Geralmente, os dados são preparados em um data lake para facilitar o processamento distribuído antes de serem carregados em um data warehouse relacional. Em alguns casos, o data warehouse usa tabelas externas para definir uma camada de metadados relacionais em arquivos no data lake e criar uma arquitetura híbrida de "data lakehouse" ou "lake database". O data warehouse pode então dar suporte a consultas analíticas para relatórios e visualização.
Há várias maneiras de implementar esse tipo de arquitetura de data warehouse. O diagrama mostra uma solução na qual o Azure Synapse Analytics hospeda pipelines para executar processos ETL (extração, transformação e carregamento) usando a tecnologia do Azure Data Factory. Esses processos extraem dados de fontes de dados operacionais e os carregam em um data lake hospedado em um contêiner do Azure Data Lake Storage Gen2. Em seguida, os dados são processados e carregados em um data warehouse relacional em um pool de SQL dedicado do Azure Synapse Analytics, de onde podem dar suporte à visualização de dados e à geração de relatórios usando o Microsoft Power BI.
Análise de dados em tempo real
Cada vez mais, as empresas e outras organizações precisam capturar e analisar fluxos perpétuos de dados e analisá-los em tempo real (ou o mais próximo possível do tempo real). Esses fluxos de dados podem ser gerados de dispositivos conectados (geralmente chamados de dispositivos da Internet das Coisas ou IoT) ou de dados gerados por usuários em plataformas de mídia social ou outros aplicativos. Ao contrário das cargas de trabalho tradicionais de processamento em lotes, os dados de streaming exigem uma solução que possa capturar e processar um fluxo ilimitado de eventos de dados conforme eles ocorrem.
Os eventos de streaming geralmente são capturados em uma fila para processamento. Há várias tecnologias que você pode usar para executar essa tarefa, incluindo Hubs de Eventos do Azure, conforme mostrado na imagem. Daqui, os dados são processados, geralmente para agregar dados em janelas temporais (por exemplo, para contar o número de mensagens de mídia social com uma determinada marca a cada cinco minutos ou para calcular a leitura média de um sensor conectado à Internet por minuto). O Azure Stream Analytics permite criar trabalhos que consultam e agregam dados de evento à medida que chegam e gravar os resultados em um coletor de saída. Um desses coletores é o Azure Data Lake Storage Gen2; onde os dados capturados em tempo real podem ser analisados e visualizados.
Ciência de dados e machine learning
A ciência de dados envolve a análise estatística de grandes volumes de dados, muitas vezes usando ferramentas como o Apache Spark e linguagens de script, como o Python. O Azure Data Lake Storage Gen 2 fornece um armazenamento de dados altamente escalonável baseado em nuvem para os volumes de dados necessários nas cargas de trabalho de ciência de dados.
O aprendizado de máquina é um subconjunto da ciência de dados que lida com o treinamento de modelos preditivos. O treinamento de modelos requer grandes quantidades de dados e a capacidade de processar esses dados com eficiência. O Azure Machine Learning é um serviço de nuvem no qual os cientistas de dados podem executar código Python em notebooks usando recursos de computação distribuídos alocados dinamicamente. A computação processa os dados em contêineres do Azure Data Lake Storage Gen2 para treinar os modelos, que podem ser implantados como serviços Web de produção para dar suporte a cargas de trabalho analíticas preditivas.