Freigeben über


Laden von Daten für maschinelles Lernen und Deep Learning

Dieser Abschnitt enthält spezifische Informationen zum Laden von Daten für ML- und DL-Anwendungen. Allgemeine Informationen zum Laden von Daten finden Sie unter Erfassen von Daten in einem Databricks-Lakehouse.

Speichern von Dateien für das Laden von Daten und das Setzen von Modellprüfpunkten

Machine Learning-Anwendungen benötigen ggf. freigegebenen Speicher für das Laden von Daten und das Setzen von Modellprüfpunkten. Dies ist insbesondere bei verteiltem Deep Learning wichtig.

Azure Databricks bietet Unity Catalog, eine einheitliche Governance-Lösung für Daten und KI-Ressourcen. Sie können Unity-Katalog für den Zugriff auf Daten in einem Cluster mit Spark- und lokalen Datei-APIs verwenden.

Laden von Tabellendaten

Sie können Machine Learning-Tabellendaten aus Tabellen oder Dateien laden (siehe beispielsweise Lesen von CSV-Dateien). Sie können Apache Spark-DataFrames mithilfe der PySpark-MethodetoPandas() in Pandas-DataFrames und anschließend optional mithilfe der PySpark-Methodeto_numpy() in das NumPy-Format konvertieren.

Vorbereiten von Daten zum Optimieren großer Sprachmodelle

Sie können Ihre Daten für die Optimierung großer Open Source-Sprachmodelle mit Hugging Face Transformers und Hugging Face Datasets vorbereiten.

Vorbereiten von Daten für die Optimierung von Hugging Face-Modellen

Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen

In diesem Abschnitt wird das Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen mit Mosaic Streaming und TFRecords behandelt.