Condividi tramite


Caricare i dati per l’apprendimento automatico e il Deep Learning

Questa sezione fornisce informazioni sul caricamento dei dati in modo specifico per applicazioni di apprendimento automatico e Deep Learning. Per informazioni generali sul caricamento dei dati, vedere Inserire dati in un lakehouse di Databricks.

Archiviare file per il caricamento dei dati e l'impostazione del checkpoint dei modelli

È possibile che le applicazioni di apprendimento automatico debbano usare risorse di archiviazione condivise per il caricamento dei dati e l'impostazione del checkpoint dei modelli. Questo aspetto è particolarmente importante per Deep Learning distribuito.

Azure Databricks fornisce Databricks File System (DBFS) per l'accesso ai dati in un cluster utilizzando sia Spark che le API dei file locali.

Caricare dati tabulari

È possibile caricare dati tabulari di apprendimento automatico da tabelle o file (vedere ad esempio Leggere i file CSV). È possibile convertire DataFrame di Apache Spark in DataFrame di pandas usando il metodo PySpark toPandas(), e quindi eseguire facoltativamente la conversione in formato NumPy usando il metodo PySpark to_numpy().

Preparare i dati per ottimizzare i modelli linguistici di grandi dimensioni

È possibile impostare i dati per ottimizzare i modelli linguistici open source di grandi dimensioni con Hugging Face Transformers e Hugging Face Datasets.

Impostare i dati per ottimizzare i modelli Hugging Face

Impostare i dati per il training di Deep Learning distribuito

Questa sezione illustra l'impostazione dei dati per il training di Deep Learning distribuito tramite Mosaic Streaming e TFRecords.