Omówienie etapów przetwarzania danych big data

Ukończone

Magazyny typu Data Lake pełnią podstawową rolę w szerokiej gamie architektur danych big data. W ramach takiej architektury mogą być tworzone następujące elementy:

  • Magazyn danych przedsiębiorstwa.
  • Zaawansowane analizy danych big data.
  • Rozwiązanie do analizy w czasie rzeczywistym.

Można wyróżnić cztery etapy w ramach rozwiązań do przetwarzania danych big data, które są wspólne dla wszystkich architektur:

  • Pozyskiwanie — faza pozyskiwania identyfikuje technologię i procesy używane do uzyskiwania danych źródłowych. Te dane mogą pochodzić z plików, dzienników i innych typów danych bez struktury, które należy umieścić w usłudze Data Lake. Używana technologia zależy od częstotliwości przesyłania danych. Na przykład w przypadku przenoszenia danych wsadowych potoki w usłudze Azure Synapse Analytics lub Azure Data Factory mogą być najbardziej odpowiednią technologią do użycia. W przypadku pozyskiwania danych w czasie rzeczywistym platforma Apache Kafka dla usługi HDInsight lub Stream Analytics może być odpowiednim wyborem.
  • Przechowywanie — w fazie przechowywania określa się lokalizację, w której zostaną umieszczone pozyskane dane. Usługa Azure Data Lake Storage Gen2 udostępnia bezpieczne i skalowalne rozwiązanie magazynu zgodne z powszechnie używanymi technologiami przetwarzania danych big data.
  • Przygotowywanie i trenowanie — faza przygotowywania i trenowania identyfikuje technologie używane do przygotowywania i trenowania danych oraz trenowania modeli i oceniania dla rozwiązań uczenia maszynowego. Typowe technologie używane w tej fazie to Azure Synapse Analytics, Azure Databricks, Azure HDInsight i Azure Machine Learning.
  • Modelowanie i udostępnianie — ta faza obejmuje technologie używane do prezentowania danych użytkownikom. Technologie te mogą obejmować narzędzia do wizualizacji, takie jak Microsoft Power BI, lub magazyny danych analitycznych, takie jak Azure Synapse Analytics. Często kombinacja wielu technologii będzie używana w zależności od wymagań biznesowych.