Compreender as etapas do processamento de big data
Os data lakes têm um papel fundamental em uma ampla gama de arquiteturas de big data. Estas arquiteturas podem envolver a criação de:
- Um armazém de dados empresarial.
- Análises avançadas relativamente a macrodados.
- Uma solução de análise em tempo real.
Existem quatro fases de processamento de soluções de macrodados que são comuns a todas as arquiteturas:
- Ingerir - A fase de ingestão identifica a tecnologia e os processos que são utilizados para adquirir os dados de origem. Esses dados podem vir de arquivos, logs e outros tipos de dados não estruturados que devem ser colocados no data lake. A tecnologia utilizada irá variar consoante a frequência com que os dados são transferidos. Por exemplo, para movimentação em lote de dados, os pipelines no Azure Synapse Analytics ou no Azure Data Factory podem ser a tecnologia mais apropriada a ser usada. Para ingestão de dados em tempo real, o Apache Kafka para HDInsight ou Stream Analytics pode ser uma escolha apropriada.
- Armazenamento – a fase de armazenamento identifica onde devem ser colocados os dados ingeridos. O Azure Data Lake Storage Gen2 fornece uma solução de armazenamento segura e escalável que é compatível com tecnologias de processamento de big data comumente usadas.
- Preparação e treinamento - A fase de preparação e treinamento identifica as tecnologias que são usadas para executar a preparação de dados e modelar o treinamento e a pontuação para soluções de aprendizado de máquina. As tecnologias comuns usadas nesta fase são o Azure Synapse Analytics, o Azure Databricks, o Azure HDInsight e o Azure Machine Learning.
- Modelo e apresentação – por último, a fase de modelo e apresentação envolve as tecnologias que irão apresentar os dados aos utilizadores. Essas tecnologias podem incluir ferramentas de visualização, como o Microsoft Power BI, ou armazenamentos de dados analíticos, como o Azure Synapse Analytics. Muitas vezes, uma combinação de várias tecnologias será usada dependendo dos requisitos de negócios.