共用方式為


載入資料以進行機器學習與深度學習

本節涵蓋針對 ML 和 DL 應用程式特別載入資料的相關資訊。 如需載入資料的一般資訊,請參閱將資料內嵌至 Databricks Lakehouse

儲存用於資料載入和模型檢查點的檔案

機器學習應用程式可能需要使用共用儲存體來載入資料,並建立模型檢查點。 對於分散式深度學習來說,這特別重要。

Azure Databricks 提供 Databricks 檔案系統 (DBFS),以使用 Spark 和本機檔案 API 存取叢集上的資料。

載入表格式資料

您可以從資料表或檔案 (例如,請參閱讀取 CSV 檔案) 載入表格式機器學習資料。 您可以使用 PySpark 方法 toPandas() 將 Apache Spark DataFrame 轉換成 pandas DataFrame,然後使用 PySpark 方法 to_numpy()選擇性地轉換成 NumPy 格式。

準備資料以微調大型語言模型

本文示範如何使用 Hugging Face TransformersHugging Face Datasets,準備用於微調開放原始碼大型語言模型的資料。

準備用於微調 Hugging Face 模型的資料

準備分散式深度學習訓練的資料

本節涵蓋使用 Mosaic Streaming 和 TFRecords 準備分散式深度學習訓練的資料。