Comprendre les phases du traitement du Big Data
Les lacs de données jouent un rôle fondamental dans de nombreuses architectures Big Data. Ces architectures peuvent impliquer la création des éléments suivants :
- Un entrepôt de données d’entreprise.
- Une analytique avancée sur du Big Data.
- Une solution d’analytique en temps réel.
Le traitement de solutions de Big Data comprend quatre phases qui sont communes à toutes les architectures :
- Ingestion : la phase d’ingestion identifie la technologie et les processus qui sont utilisés pour acquérir les données sources. Ces données peuvent provenir de fichiers, de journaux et d’autres types de données non structurées qui doivent être placés dans le lac de données. La technologie utilisée varie en fonction de la fréquence de transfert des données. Pour le déplacement par lots des données par exemple, les pipelines dans Azure Synapse Analytics ou Azure Data Factory peuvent être la technologie la mieux appropriée. Pour l’ingestion de données en temps réel, Apache Kafka pour HDInsight ou Stream Analytics peuvent être appropriés.
- Stocker : La phase de stockage identifie l’endroit où les données ingérées doivent être placées. Azure Data Lake Storage Gen2 fournit une solution de stockage sécurisée et évolutive qui est compatible avec les technologies de traitement du Big Data courantes.
- Préparation et apprentissage : la phase de préparation et d’apprentissage identifie les technologies qui sont utilisées pour la préparation des données, ainsi que pour l’apprentissage et le scoring des modèles des solutions de Machine Learning. Les technologies couramment utilisées pendant cette phase sont Azure Synapse Analytics, Azure Databricks, Azure HDInsight et Azure Machine Learning.
- Modéliser et traiter : pour finir, la phase Modéliser et traiter implique les technologies qui présentent les données aux utilisateurs. Ces technologies peuvent inclure des outils de visualisation comme Microsoft Power BI, ou des magasins de données analytiques comme Azure Synapse Analytics. Une combinaison de plusieurs technologies est souvent utilisée selon les besoins métier.