Aggiornamento incrementale per le origini dati di Data Lake Storage
L'aggiornamento incrementale per le origini dati basate su Azure Data Lake Storage offre i seguenti vantaggi:
- Aggiornamenti più rapidi - Vengono aggiornati solo i dati che sono stati modificati. Ad esempio, potresti aggiornare solo gli ultimi cinque giorni di uno set di dati storici.
- Maggiore affidabilità - Con aggiornamenti più piccoli, non è necessario mantenere le connessioni a sistemi di origine volatili per lungo tempo, riducendo il rischio di problemi di connessione.
- Utilizzo ridotto delle risorse - L'aggiornamento di un solo sottoinsieme dei dati totali comporta un uso più efficiente delle risorse di elaborazione e riduce l'impatto ambientale.
Configurare l'aggiornamento incrementale per le origini dati di Azure Data Lake Storage
Microsoft consiglia il formato Delta Lake per ottenere prestazioni e risultati migliori quando si lavora con set di dati di grandi dimensioni. Customer Insights - Data fornisce un connettore ottimizzato per i dati formattati Delta Lake. I processi interni come l'unificazione sono ottimizzati per elaborare in modo incrementale solo i dati modificati, con conseguenti tempi di elaborazione più brevi.
Per usare l'inserimento e l'aggiornamento incrementali per una tabella Data Lake, configura tale tabella quando aggiungi o modifichi l'origine dati Azure Data Lake. La cartella dei dati delle tabelle deve contenere le seguenti cartelle:
- FullData: cartella con file di dati contenenti record iniziali
- IncrementalData: cartella con le cartelle della gerarchia di data/ora in formato aaaa/mm/gg/hh contenente gli aggiornamenti incrementali. Si prevede che le cartelle anno, mese, giorno e ora siano rispettivamente di quattro e due cifre. Hhh rappresenta l'ora UTC degli aggiornamenti e contiene le cartelle Upserts e Deletes. Upserts contiene file di dati con aggiornamenti di record esistenti o nuovi record. Elimina contiene file di dati con i record da rimuovere.
Ordine di elaborazione dei dati incrementali
Il sistema elabora i file nella cartella IncrementalDatadopo la fine dell'ora UTC specificata. Ad esempio, se il sistema inizia a elaborare l'aggiornamento incrementale il 21 gennaio 2023 alle 8:15, tutti i file presenti nella cartella 2023/01/21/07 (che rappresentano i file di dati archiviati dalle 7:00 alle 8:00) verranno elaborati. Tutti i file nella cartella 2023/01/21/08 (che rappresenta l'ora corrente in cui i file vengono ancora generati) non vengono elaborati fino all'esecuzione successiva.
Se sono presenti due record per una chiave primaria, un upsert e un'eliminazione, Customer Insights - Data utilizza il record con la data dell'ultima modifica. Ad esempio, se il timestamp di eliminazione è 2023-01-21T08:00:00 e il timestamp di upsert è 2023-01-21T08:30:00, utilizza il record upsert. Se l'eliminazione è avvenuta dopo l'upsert, il sistema presuppone che il record sia stato eliminato.
Configurare l'aggiornamento incrementale per le origini dati di Azure Data Lake
Quando aggiungi o modifichi un'origine dati, vai al riquadro Attributi per la tabella.
Rivedi gli attributi. Assicurati che un attributo della data di creazione o dell'ultimo aggiornamento sia impostato con dateTimeFormato dati e Calendar.DateTipo semantico. Modifica l'attributo se necessario e seleziona Fatto.
Nel riquadro Seleziona tabelle modifica la tabella. La casella di controllo Inserimento incrementale è selezionata.
- Passa alla cartella radice che contiene file csv o parquet per i dati completi, upsert dei dati incrementali ed eliminazioni di dati incrementali.
- Immetti l'estensione per i dati completi e per entrambi i file (.csv o .parquet) incrementali.
- Per i file .csv, seleziona il delimitatore di colonna e, se vuoi, la prima riga del file come intestazione di colonna.
- Seleziona Salva.
In Ultimo aggiornamento seleziona l'attributo timestamp.
Se Chiave primaria non è selezionata, seleziona la chiave primaria. La chiave primaria è un attributo univoco per la tabella. Affinché un attributo sia una chiave primaria valida, non deve includere valori duplicati, valori mancanti o valori null. Gli attributi del tipo di dati String, Integer e GUID sono supportati come chiavi primarie.
Seleziona Chiudi per salvare e chiudere il riquadro.
Continua con l'aggiunta o la modifica dell'origine dati.
Eseguire l'aggiornamento completo una tantum per le origini dati di Azure Data Lake
Dopo aver configurato un aggiornamento incrementale per le origini dati di Azure Data Lake, in alcuni casi i dati devono essere elaborati con un aggiornamento completo. La cartella dei dati completi configurata per l'aggiornamento incrementale deve contenere la posizione dei dati completi.
Quando modifichi origine dati, vai al riquadro Seleziona tabelle e modifica la tabella che desideri aggiornare.
Nel riquadro Modifica tabella , scorri fino alla casella di controllo Esegui aggiornamento completo una tantum e selezionala.
Per Elabora file incrementali da, specifica la data e l'ora in cui conservare i file incrementali. I dati completi più i dati incrementali avviano l'elaborazione dopo la data e l'ora specificate. Ad esempio, se si desidera eseguire un aggiornamento/back-fill parziale dei dati fino alla fine di novembre conservando i dati incrementali dall'inizio di dicembre a oggi (30 dicembre), immettere il 1° dicembre. Per sostituire tutti i dati e ignorare i dati nella cartella incrementale, specificare una data futura.
Seleziona Chiudi per salvare e chiudere il riquadro.
Seleziona Salva per applicare le modifiche e tornare alla pagina Origine dati. L'origine dati è in stato Aggiornamento quando si esegue un aggiornamento completo.