Caricare i dati per l’apprendimento automatico e il Deep Learning
Questa sezione fornisce informazioni sul caricamento dei dati in modo specifico per applicazioni di apprendimento automatico e Deep Learning. Per informazioni generali sul caricamento dei dati, vedere Inserire dati in un lakehouse di Databricks.
Archiviare file per il caricamento dei dati e l'impostazione del checkpoint dei modelli
È possibile che le applicazioni di apprendimento automatico debbano usare risorse di archiviazione condivise per il caricamento dei dati e l'impostazione del checkpoint dei modelli. Questo aspetto è particolarmente importante per Deep Learning distribuito.
Azure Databricks offre Unity Catalog, una soluzione di governance unificata per i dati e gli asset di intelligenza artificiale. È possibile usare Unity Catalog per l'accesso ai dati in un cluster tramite API di file locali e Spark.
Caricare dati tabulari
È possibile caricare dati di Machine Learning tabulari da tabelle o file( ad esempio, vedere leggere i file CSV). È possibile convertire DataFrame di Apache Spark in DataFrame di pandas usando il metodo PySparktoPandas()
, e quindi eseguire facoltativamente la conversione in formato NumPy usando il metodo PySparkto_numpy()
.
Preparare i dati per ottimizzare i modelli linguistici di grandi dimensioni
È possibile impostare i dati per ottimizzare i modelli linguistici open source di grandi dimensioni con Hugging Face Transformers e Hugging Face Datasets.
Impostare i dati per ottimizzare i modelli Hugging Face
Impostare i dati per il training di Deep Learning distribuito
Questa sezione illustra l'impostazione dei dati per il training di Deep Learning distribuito tramite Mosaic Streaming e TFRecords.