Noções básicas sobre os estágios do processamento de Big Data
Os data lakes desempenham um papel fundamental em uma grande variedade de arquiteturas de Big Data. Essas arquiteturas podem envolver a criação de:
- Um data warehouse corporativo.
- Análise avançada de Big Data.
- Uma solução de análise em tempo real.
Há quatro estágios para o processamento de soluções de Big Data que são comuns a todas as arquiteturas:
- Ingerir – a fase de ingestão identifica a tecnologia e os processos usados para adquirir os dados de origem. Esses dados podem ser obtidos de arquivos, logs e outros tipos de dados não estruturados que precisam ser inseridos no data lake. A tecnologia usada poderá variar, dependendo da frequência com que os dados são transferidos. Por exemplo, para a movimentação de dados em lote, os pipelines no Azure Synapse Analytics ou no Azure Data Factory podem ser a tecnologia mais adequada a usar. Para a ingestão de dados em tempo real, o Apache Kafka para HDInsight ou o Stream Analytics pode ser uma opção adequada.
- Armazenar – a fase de armazenamento identifica o local em que os dados ingeridos devem ser colocados. O Azure Data Lake Storage Gen2 fornece uma solução de armazenamento segura e escalonável compatível com tecnologias de processamento de Big Data comumente usadas.
- Preparar e treinar – a fase de preparação e treinamento identifica as tecnologias que são usadas para executar a preparação de dados e o treinamento de modelo, assim como a pontuação para soluções de aprendizado de máquina. As tecnologias comuns usadas nesta fase são Azure Synapse Analytics, Azure Databricks, Azure HDInsight e Azure Machine Learning.
- Modelar e fornecer – por fim, a fase de modelagem e fornecimento envolve as tecnologias que apresentarão os dados aos usuários. Essas tecnologias podem incluir ferramentas de visualização, como o Microsoft Power BI, ou repositórios de dados analíticos, como o Azure Synapse Analytics. Muitas vezes, uma combinação de várias tecnologias será usada, dependendo dos requisitos de negócios.