Inserire dati dall'archiviazione di oggetti cloud

Articolo
03/05/2025

Questo articolo elenca i modi in cui è possibile configurare l'inserimento incrementale dall'archiviazione di oggetti cloud.

Aggiungere l'interfaccia utente dei dati

Per informazioni su come usare l'interfaccia utente di aggiunta dei dati per creare una tabella gestita dai dati nell'archiviazione di oggetti cloud, vedere Caricare dati usando una posizione esterna del catalogo Unity.

Notebook o editor SQL

Questa sezione descrive le opzioni per la configurazione dell'inserimento incrementale dall'archiviazione di oggetti cloud usando un notebook o l'editor SQL di Databricks.

Caricatore automatico

Il caricatore automatico elabora in modo incrementale ed efficiente i nuovi file di dati man mano che arrivano nell'archiviazione cloud senza alcuna configurazione aggiuntiva. Auto Loader fornisce un'origine Structured Streaming denominata cloudFiles. Dato un percorso di directory di input nell'archiviazione di file su cloud, l'origine cloudFiles elabora automaticamente i nuovi file al loro arrivo, con la possibilità di elaborare anche i file esistenti in tale directory.

COPY INTO

Usando COPY INTO, gli utenti SQL possono acquisire in modo idempotente e incrementale dati dall'archiviazione di oggetti cloud nelle tabelle Delta. È possibile usare COPY INTO in Databricks SQL, nei notebook e nelle attività di Databricks.

Quando usare COPY INTO e quando usare Auto Loader

Ecco alcuni aspetti da considerare quando si sceglie tra caricatore automatico e COPY INTO:

Se si intende inserire file nell'ordine di migliaia nel tempo, è possibile usare COPY INTO. Se si prevede che i file siano nell'ordine di milioni o più nel tempo, usare Il caricatore automatico. Il caricatore automatico richiede meno operazioni totali per individuare i file rispetto a COPY INTO e può suddividere l'elaborazione in più batch, il che significa che il caricatore automatico è meno costoso ed efficiente su larga scala.
Se lo schema dei dati sta per evolvere di frequente, il caricatore automatico offre tipi di dati primitivi migliori per l'inferenza e l'evoluzione dello schema. Per altri dettagli, vedere Configurare l'inferenza e l'evoluzione dello schema in Caricamento automatico.
Il caricamento di un subset di file ricaricati può essere un po' più semplice da gestire con COPY INTO. Con il caricatore automatico, è più difficile rielaborare un subset selezionato di file. Tuttavia, è possibile usare COPY INTO per ricaricare il subset di file mentre un flusso del caricatore automatico è in esecuzione contemporaneamente.

Per un'esperienza di inserimento file ancora più scalabile e affidabile, il caricatore automatico consente agli utenti SQL di sfruttare le tabelle di streaming. Vedere Caricare dati usando tabelle di streaming in Databricks SQL.

Per una breve panoramica e dimostrazione di Auto Loader e COPY INTO, guardare il video di YouTube seguente (2 minuti).

Automatizzare ETL con DLT e Auto Loader

È possibile semplificare la distribuzione di un'infrastruttura di inserimento incrementale scalabile con il caricatore automatico e DLT. DLT non usa l'esecuzione interattiva standard disponibile nei notebook, ma enfatizza la distribuzione dell'infrastruttura pronta per la produzione.

Caricare dati usando tabelle di streaming in Databricks SQL

Strumenti di inserimento di terze parti

Databricks convalida le integrazioni dei partner tecnologici che consentono di inserire da varie origini, tra cui l'archiviazione di oggetti cloud. Queste integrazioni consentono l'inserimento di dati scalabili e a basso codice da un'ampia gamma di origini in Azure Databricks. Vedere Partner tecnologici. Alcuni partner tecnologici sono disponibili in Che cos'è Databricks Partner Connect?, che offre un'interfaccia utente che semplifica la connessione di strumenti di terze parti ai dati lakehouse.

Condividi tramite