加载用于机器学习和深度学习的数据
本部分介绍了如何加载专用于 ML 和 DL 应用程序的数据。 有关如何加载数据的一般信息,请参阅将数据引入 Databricks 湖屋中。
存储文件来执行数据加载和模型检查点操作
机器学习应用程序可能需要使用共享存储来执行数据加载和模型检查点操作。 对于分布式深度学习来说,这尤其重要。
Azure Databricks 提供 Unity Catalog,这是一种用于数据和 AI 资产的统一治理解决方案。 可以使用 Unity 目录通过 Spark 和本地文件 API 访问群集中的数据。
加载表格数据
可从表格或文件(例如,请参阅读取 CSV 文件)加载表格机器学习数据。 可使用 PySpark 方法toPandas()
将 Apache Spark 数据帧转换为 Pandas 数据帧,然后根据需要使用 PySpark 方法to_numpy()
转换为 NumPy 格式。
准备数据以微调大型语言模型
可以使用 Hugging Face Transformers 和 Hugging Face Datasets 准备数据以微调开源大型语言模型。
为分布式深度学习训练准备数据
本部分介绍了如何使用 Mosaic Streaming 和 TFRecords 为分布式深度学习训练准备数据。