載入資料以進行機器學習與深度學習

發行項
01/21/2025

本節涵蓋針對 ML 和 DL 應用程式特別載入資料的相關資訊。如需載入資料的一般資訊，請參閱將資料內嵌至 Databricks Lakehouse。

儲存用於資料載入和模型檢查點的檔案

機器學習應用程式可能需要使用共用儲存體來載入資料，並建立模型檢查點。對於分散式深度學習來說，這特別重要。

Azure Databricks 提供 Unity 目錄，這是適用於數據和 AI 資產的統一治理解決方案。您可以使用 Unity 目錄，透過 Spark 和本機檔案 API 存取叢集上的數據。

載入表格式資料

您可以從表格或檔案載入表格化的機器學習數據（例如，請參考讀取 CSV 檔案）。您可以使用 PySpark 方法toPandas() 將 Apache Spark DataFrame 轉換成 pandas DataFrame，然後使用 PySpark 方法to_numpy()選擇性地轉換成 NumPy 格式。

準備資料以微調大型語言模型

本文示範如何使用 Hugging Face Transformers 和 Hugging Face Datasets，準備用於微調開放原始碼大型語言模型的資料。

準備用於微調 Hugging Face 模型的資料

準備分散式深度學習訓練的資料

本節涵蓋使用 Mosaic Streaming 和 TFRecords 準備分散式深度學習訓練的資料。

共用方式為

載入資料以進行機器學習與深度學習

儲存用於資料載入和模型檢查點的檔案

載入表格式資料

準備資料以微調大型語言模型

準備分散式深度學習訓練的資料

意見反應

其他資源