Gegevens laden voor machine learning en deep learning
Dit gedeelte bevat informatie over het laden van gegevens voor specifiek ML- en DL-toepassingen. Zie Gegevens opnemen in een Databricks Lakehouse voor algemene informatie over het laden van gegevens.
Bestanden opslaan voor gegevens laden en modelcontrolepunten
Machine learning-toepassingen moeten mogelijk gebruikmaken van gedeelde opslag voor het laden van gegevens en modelcontrolepunten. Dit is vooral belangrijk voor gedistribueerde deep learning.
Azure Databricks biedt Unity Catalog, een geïntegreerde governanceoplossing voor gegevens en AI-assets. U kunt Unity Catalog gebruiken voor toegang tot gegevens in een cluster met behulp van spark- en lokale bestands-API's.
Tabulaire gegevens laden
U kunt machine learning-gegevens in tabelvorm laden uit tabellen of bestanden (zie bijvoorbeeld CSV-bestanden lezen). U kunt Apache Spark DataFrames converteren naar pandas DataFrames met behulp van de en eventueel converteren naar NumPy-indeling met behulp van de toPandas()
PySpark.
Gegevens voorbereiden om grote taalmodellen af te stemmen
U kunt uw gegevens voorbereiden voor het verfijnen van open source grote taalmodellen met Hugging Face Transformers en Hugging Face Datasets.
Gegevens voorbereiden voor het afstemmen van Hugging Face-modellen
Gegevens voorbereiden voor gedistribueerde Deep Learning-training
In deze sectie wordt beschreven hoe u gegevens voorbereidt voor gedistribueerde deep learning-training met behulp van Mosaic Streaming en TFRecords.