Confrontare le modalità di rilevamento dei file dell'Auto Loader
Il caricatore automatico supporta due modalità per il rilevamento di nuovi file: elenco di directory e notifica file. È possibile cambiare le modalità di individuazione dei file tra i riavvii del flusso e ottenere comunque garanzie di elaborazione dei dati esattamente una volta.
Modalità elenco di Directory
In modalità elenco directory, il caricatore automatico identifica i nuovi file elencando la directory di input. La modalità di elenco directory consente di avviare rapidamente i flussi di Auto Loader senza configurazioni di autorizzazione diverse dall'accesso ai dati nell'archiviazione cloud.
In Databricks Runtime 9.1 e versioni successive, il caricatore automatico può rilevare automaticamente se i file arrivano con l'ordinamento lessicale per l'archiviazione cloud e ridurre significativamente la quantità di chiamate API necessarie per rilevare nuovi file. Per ulteriori dettagli, vedere Che cos'è la modalità di elenco directory di Auto Loader?
Modalità di notifica dei file
La modalità di notifica dei file sfrutta i servizi di notifica dei file e di coda nel tuo account dell'infrastruttura cloud. Il caricatore automatico può configurare automaticamente un servizio di notifica e un servizio di coda che si iscrivono agli eventi di file dalla directory di input.
La modalità di notifica dei file è più efficiente e scalabile per directory di input di grandi dimensioni o un volume elevato di file, ma richiede autorizzazioni cloud aggiuntive per la configurazione. Per altre informazioni, vedere Che cos'è la modalità di notifica dei file di Auto Loader?.
Archiviazione cloud supportata dalle modalità
Di seguito è riportata la disponibilità per queste modalità.
Se si esegue la migrazione da una posizione esterna o da un montaggio DBFS a un volume del catalogo Unity, il caricatore automatico continua a fornire garanzie di tipo exactly-once.
Archiviazione cloud | Elenco della directory | Notifiche sui file |
---|---|---|
AWS S3 | Tutte le versioni | Tutte le versioni |
ADLS Gen2 | Tutte le versioni | Tutte le versioni |
GCS | Tutte le versioni | Databricks Runtime 9.1 e versioni successive |
Archiviazione BLOB di Azure | Tutte le versioni | Tutte le versioni |
ADLS Gen1 | Tutte le versioni | Non supportato |
DBFS | Tutte le versioni | Solo per i punti di montaggio |
Volume del catalogo Unity | Databricks Runtime 13.3 LTS e versioni successive | Non supportato |