Fases del procesamiento de macrodatos

Completado

Los lagos de datos tienen un papel fundamental en una amplia gama de arquitecturas de macrodatos. Estas arquitecturas pueden conllevar la creación de:

  • Un almacén de datos empresarial.
  • Análisis avanzados con macrodatos.
  • Una solución de análisis en tiempo real.

Hay cuatro fases del procesamiento de soluciones de macrodatos que son comunes a todas las arquitecturas:

  • Ingesta: la fase de ingesta identifica la tecnología y los procesos que se usan para adquirir los datos de origen. Estos datos pueden proceder de archivos, registros y otros tipos de datos no estructurados que deben ponerse en el lago de datos. La tecnología que se usa variará según la frecuencia con la que se transfieran los datos. Por ejemplo, para el movimiento de datos por lotes, las canalizaciones de Azure Synapse Analytics o Azure Data Factory pueden ser la tecnología más adecuada. En el caso de la ingesta de datos en tiempo real, Apache Kafka para HDInsight o Stream Analytics pueden ser una opción apropiada.
  • Almacenamiento: la fase de almacenamiento identifica dónde se deben colocar los datos ingeridos. Azure Data Lake Storage Gen2 proporciona una solución de almacenamiento segura y escalable que es compatible con las tecnologías de procesamiento de macrodatos más utilizadas.
  • Preparación y entrenamiento: la fase de preparación y entrenamiento identifica las tecnologías que se usan para llevar a cabo la preparación de los datos y el entrenamiento y la puntuación de modelos para soluciones de aprendizaje automático. Algunas tecnologías comunes que se usan en esta fase son Azure Synapse Analytics, Azure Databricks, Azure HDInsight y Azure Machine Learning.
  • Modelado y entrega: por último, en la fase de modelado y entrega participan las tecnologías que van a presentar los datos a los usuarios. Estas tecnologías pueden incluir herramientas de visualización, como Microsoft Power BI, o almacenes de datos analíticos, como Azure Synapse Analytics. A menudo, se usa una combinación de estas tecnologías en función de los requisitos empresariales.