Inserire dati dall'archiviazione di oggetti cloud
Questo articolo elenca i modi in cui è possibile configurare l'inserimento incrementale dall'archiviazione di oggetti cloud.
Aggiungere l'interfaccia utente dei dati
Per informazioni su come usare l'interfaccia utente di aggiunta dei dati per creare una tabella gestita dai dati nell'archiviazione di oggetti cloud, vedere Caricare dati usando una posizione esterna del catalogo Unity.
Notebook o editor SQL
Questa sezione descrive le opzioni per la configurazione dell'inserimento incrementale dall'archiviazione di oggetti cloud usando un notebook o l'editor SQL di Databricks.
Autoloader
Il caricatore automatico elabora in modo incrementale ed efficiente i nuovi file di dati man mano che arrivano nell'archiviazione cloud senza alcuna configurazione aggiuntiva. Il caricatore automatico fornisce un'origine structured streaming denominata cloudFiles
. Dato un percorso di directory di input nell'archiviazione file cloud, l'origine cloudFiles
elabora automaticamente i nuovi file non appena arrivano, con la possibilità di elaborare anche i file esistenti in tale directory.
COPY INTO
Con COPY INTO, gli utenti DI SQL possono inserire i dati in modo idempotente e incrementale dall'archiviazione di oggetti cloud in tabelle Delta. È possibile usare COPY INTO
in Databricks SQL, notebook e processi di Databricks.
Quando usare COPY INTO e quando usare il caricatore automatico
Ecco alcuni aspetti da considerare quando si sceglie tra caricatore automatico e COPY INTO
:
Se si intende inserire file nell'ordine di migliaia nel tempo, è possibile usare
COPY INTO
. Se si prevede che i file siano nell'ordine di milioni o più nel tempo, usare Il caricatore automatico. Il caricatore automatico richiede meno operazioni totali per individuare i file rispetto aCOPY INTO
e può suddividere l'elaborazione in più batch, il che significa che il caricatore automatico è meno costoso ed efficiente su larga scala.Se lo schema dei dati sta per evolvere di frequente, il caricatore automatico offre tipi di dati primitivi migliori per l'inferenza e l'evoluzione dello schema. Per altri dettagli, vedere Configurare l'inferenza e l'evoluzione dello schema in Caricamento automatico.
Il caricamento di un subset di file ricaricati può essere un po' più semplice da gestire con
COPY INTO
. Con il caricatore automatico, è più difficile rielaborare un subset selezionato di file. Tuttavia, è possibile usareCOPY INTO
per ricaricare il subset di file mentre un flusso del caricatore automatico è in esecuzione contemporaneamente.Per un'esperienza di inserimento file ancora più scalabile e affidabile, il caricatore automatico consente agli utenti SQL di sfruttare le tabelle di streaming. Vedere Caricare dati usando tabelle di streaming in Databricks SQL.
Per una breve panoramica e dimostrazione di Auto Loader e COPY INTO
, guardare il video di YouTube seguente (2 minuti).
Automatizzare ETL con tabelle live Delta e caricatore automatico
È possibile semplificare la distribuzione di un'infrastruttura di inserimento incrementale scalabile con il caricatore automatico e le tabelle live delta. Le tabelle live delta non usano l'esecuzione interattiva standard disponibile nei notebook, ma enfatizza la distribuzione dell'infrastruttura pronta per la produzione.
Esercitazione: Eseguire il primo carico di lavoro ETL in Databricks
Inserire dati usando tabelle di streaming (notebook Python/SQL)
Strumenti di inserimento di terze parti
Databricks convalida le integrazioni dei partner tecnologici che consentono di inserire da varie origini, tra cui l'archiviazione di oggetti cloud. Queste integrazioni consentono l'inserimento di dati scalabili e a basso codice da un'ampia gamma di origini in Azure Databricks. Vedere Partner tecnologici. Alcuni partner tecnologici sono disponibili in Che cos'è Databricks Partner Connect?, che offre un'interfaccia utente che semplifica la connessione di strumenti di terze parti ai dati lakehouse.