Caricare dati in modo incrementale da un archivio dati di origine a un archivio dati di destinazione
SI APPLICA A: Azure Data Factory Azure Synapse Analytics
Suggerimento
Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!
In una soluzione di integrazione dei dati il caricamento incrementale (o differenziale) dei dati dopo un caricamento di dati iniziale completo è uno scenario ampiamente diffuso. Le esercitazioni incluse in questa sezione mostrano diversi metodi per caricare dati in modo incrementale usando Azure Data Factory.
Caricamento differenziale dei dati usando un limite
In questo caso, è necessario definire un limite nel database di origine. Un limite è una colonna che contiene l'ultimo timestamp aggiornato o una chiave di incremento. La soluzione di caricamento differenziale carica i dati modificati tra un limite precedente e uno nuovo. Il flusso di lavoro per questo approccio è raffigurato nel diagramma seguente:
Per istruzioni dettagliate, vedere le esercitazioni seguenti:
- Eseguire la copia incrementale di dati da una tabella del database SQL di Azure a un archivio BLOB di Azure
- Eseguire la copia incrementale di dati da più tabelle di un'istanza di SQL Server al database SQL di Azure
Per i modelli vedere l'argomento seguente:
Caricamento differenziale dei dati dal database SQL usando la tecnologia Rilevamento modifiche
La tecnologia Rilevamento modifiche è una soluzione leggera inclusa in SQL Server e nel database SQL di Azure che offre un efficiente meccanismo di rilevamento delle modifiche per le applicazioni. Questa tecnologia consente a un'applicazione di identificare facilmente i dati inseriti, aggiornati o eliminati.
Il flusso di lavoro per questo approccio è raffigurato nel diagramma seguente:
Per istruzioni dettagliate, vedere l'esercitazione seguente:
Caricamento dei soli file nuovi e modificati usando LastModifiedDate
È possibile copiare i file nuovi e modificati solo usando LastModifiedDate nell'archivio di destinazione. Azure Data Factory analizza tutti i file dall'archivio di origine, applica il filtro LastModifiedDate sui file e copia nell'archivio di destinazione solo quello nuovo e aggiornato più di recente. Tenere presente che se si consente ad ADF di analizzare grandi quantità di file, ma si copiano solo alcuni file nella destinazione, questo richiederà ancora molto tempo a causa del processo di analisi dei file.
Per istruzioni dettagliate, vedere l'esercitazione seguente:
- Incrementally copy new and changed files based on LastModifiedDate from Azure Blob storage to Azure Blob storage (Eseguire la copia incrementale dei file nuovi e modificati in base a LastModifiedDate da Archiviazione BLOB di Azure ad Archiviazione BLOB di Azure)
Per i modelli vedere l'argomento seguente:
Caricamento dei soli file nuovi usando il nome di file o cartella partizionato in base al tempo
È possibile copiare solo i nuovi file se i file o le cartelle sono già stati partizionati in base al tempo con informazioni temporali inserite nel nome di file o cartella (ad esempio, /aaaa/mm/gg/file.csv). Questo è l'approccio più efficace in termini di prestazioni per il caricamento incrementale di nuovi file.
Per istruzioni dettagliate, vedere l'esercitazione seguente:
- Incrementally copy new files based on time partitioned folder or file name from Azure Blob storage to Azure Blob storage (Eseguire la copia incrementale dei file nuovi in base al nome di cartella o di file partizionato in base al tempo da Archiviazione BLOB di Azure ad Archiviazione BLOB di Azure)
Contenuto correlato
Passare all'esercitazione seguente: