Delen via


Gegevens laden voor machine learning en deep learning

Dit gedeelte bevat informatie over het laden van gegevens voor specifiek ML- en DL-toepassingen. Zie Gegevens opnemen in een Databricks Lakehouse voor algemene informatie over het laden van gegevens.

Bestanden opslaan voor gegevens laden en modelcontrolepunten

Machine learning-toepassingen moeten mogelijk gebruikmaken van gedeelde opslag voor het laden van gegevens en modelcontrolepunten. Dit is vooral belangrijk voor gedistribueerde deep learning.

Azure Databricks biedt het Databricks File System (DBFS) voor toegang tot gegevens in een cluster met behulp van spark- en lokale bestands-API's.

Tabulaire gegevens laden

U kunt machine learning-gegevens in tabelvorm laden uit tabellen of bestanden (zie bijvoorbeeld CSV-bestanden lezen). U kunt Apache Spark DataFrames converteren naar pandas DataFrames met behulp van de Methode PySpark toPandas() en eventueel converteren naar NumPy-indeling met behulp van de Methode to_numpy()PySpark.

Gegevens voorbereiden om grote taalmodellen af te stemmen

U kunt uw gegevens voorbereiden voor het verfijnen van open source grote taalmodellen met Hugging Face Transformers en Hugging Face Datasets.

Gegevens voorbereiden voor het afstemmen van Hugging Face-modellen

Gegevens voorbereiden voor gedistribueerde Deep Learning-training

In deze sectie wordt beschreven hoe u gegevens voorbereidt voor gedistribueerde deep learning-training met behulp van Mosaic Streaming en TFRecords.