Inzicht in de fasen voor het verwerken van big data

Voltooid

Data Lakes heeft een fundamentele rol in een breed scala aan big data-architecturen. Deze architecturen kunnen betrekking hebben op het maken van:

  • Een datawarehouse voor ondernemingen.
  • Geavanceerde analyse op basis van big data.
  • Een realtime analytische oplossing.

Alle architecturen hebben vier fasen voor het verwerken van big data-oplossingen gemeenschappelijk:

  • Opname: de opnamefase identificeert de technologie en processen die worden gebruikt om de brongegevens te verkrijgen. Deze gegevens kunnen afkomstig zijn van bestanden, logboeken en andere typen ongestructureerde gegevens die in de data lake moeten worden geplaatst. De gebruikte technologie verschilt en is afhankelijk van de frequentie waarmee de gegevens worden overgedragen. Voor batchverplaatsing van gegevens kunnen pijplijnen in Azure Synapse Analytics of Azure Data Factory bijvoorbeeld de meest geschikte technologie zijn om te gebruiken. Voor realtime gegevensopname is Apache Kafka voor HDInsight of Stream Analytics mogelijk een geschikte keuze.
  • Opslag: tijdens de opslagfase wordt bepaald waar de opgenomen gegevens moeten worden geplaatst. Azure Data Lake Storage Gen2 biedt een veilige en schaalbare opslagoplossing die compatibel is met veelgebruikte technologieën voor verwerking van big data.
  • Voorbereiden en trainen : de voorbereidings- en trainingsfase identificeert de technologieën die worden gebruikt om gegevensvoorbereiding uit te voeren en modeltraining en scoren voor machine learning-oplossingen uit te voeren. Veelgebruikte technologieën die in deze fase worden gebruikt, zijn Azure Synapse Analytics, Azure Databricks, Azure HDInsight en Azure Machine Learning.
  • Modelleren en aanleveren: de laatste fase, modelleren en aanleveren, bevat de technologieën waarmee de gegevens aan gebruikers worden gepresenteerd. Deze technologieën kunnen bestaan uit visualisatiehulpprogramma's zoals Microsoft Power BI of analytische gegevensarchieven zoals Azure Synapse Analytics. Vaak wordt een combinatie van meerdere technologieën gebruikt, afhankelijk van de bedrijfsvereisten.