了解处理大数据的阶段
数据湖在广泛的大数据体系结构中起基础性作用。 这些体系结构可能涉及到创建:
- 企业数据仓库。
- 针对大数据的高级分析。
- 实时分析解决方案。
处理所有体系结构通用的大数据解决方案分为四个阶段:
- 引入 - 引入阶段确定用于获取源数据的技术和过程。 此数据可以来自必须放置在数据湖中的文件、日志和其他类型的非结构化数据。 使用的技术因数据传输频率而异。 例如:对于数据的批量移动,Azure Synapse Analytics 或 Azure 数据工厂中的管道可能是最适合使用的技术。 对于数据的实时引入,Apache Kafka for HDInsight 或流分析可能是适合的选择。
- 存储 - 存储阶段确定引入的数据应放置的位置。 Azure Data Lake Storage Gen2 提供安全且可缩放的存储解决方案,与常用的大数据处理技术兼容。
- 准备和训练 - 准备和训练阶段确定用于为机器学习解决方案执行数据准备以及模型训练和评分的技术。 此阶段中使用的常见技术是 Azure Synapse Analytics、Azure Databricks、Azure HDInsight 和 Azure 机器学习。
- 建模和提供 - 最后,建模和提供阶段涉及到向用户呈现数据的技术。 这些技术可以包括可视化工具(如 Microsoft Power BI)或分析数据存储(如 Azure Synapse Analytics)。 通常,将根据业务要求使用多种技术的组合。