Condividi tramite


Aggiungere una destinazione lakehouse a un eventstream

Questo articolo illustra come aggiungere una lakehouse come destinazione a un eventstream nei flussi di eventi di Microsoft Fabric. Per ottimizzare le prestazioni di streaming e l'esecuzione di query in tempo reale, prendere in considerazione lo streaming dei dati in una eventhouse con l'aggiunta della destinazione Eventhouse a un flusso di eventi e quindi abilitare la disponibilità di OneLake eventhouse.

Nota

Le funzionalità avanzate sono abilitate per impostazione predefinita quando si creano flussi di eventi. Se sono stati creati flussi di eventi che usano funzionalità standard, tali flussi di eventi continueranno a funzionare. È comunque possibile modificarli e usarli come di consueto. È consigliabile creare un nuovo flusso di eventi per sostituire i flussi di eventi standard in modo da poter sfruttare funzionalità aggiuntive e vantaggi dei flussi di eventi avanzati.

Importante

La scrittura dei dati in una tabella di destinazione di lakehouse è soggetta all'applicazione dello schema. Tutte le nuove scritture nella tabella devono essere compatibili con lo schema della tabella di destinazione in fase di scrittura, garantendo la qualità dei dati.

Quando l'output viene scritto in una nuova tabella delta, lo schema della tabella viene creato in base al primo record. Tutti i record dei dati di output vengono proiettati nello schema della tabella esistente.

Se i dati in ingresso contengono colonne che non si trovano nello schema di tabella esistente, le colonne aggiuntive non vengono incluse nei dati scritti nella tabella. Analogamente, se i dati in ingresso sono privi di colonne presenti nello schema di tabella esistente, le colonne mancanti vengono scritte nella tabella con i valori impostati su null.

Prerequisiti

  • Accesso a un'area di lavoro in modalità di licenza della capacità di Infrastruttura (o) modalità licenza di valutazione con autorizzazioni di collaboratore o superiore.
  • Accesso all'area di lavoro in cui si trova il lakehouse con autorizzazioni di collaboratore o superiore.

Nota

Il numero massimo di origini e destinazioni per un eventstream è 11.

Aggiungere una lakehouse come destinazione

Per aggiungere una destinazione lakehouse a un eventstream predefinito o derivato, seguire questa procedura.

  1. In Modalità di modifica per l'eventstream selezionare Aggiungi destinazione sul nastro e selezionare Lakehouse dall'elenco a discesa.

    Screenshot dell'elenco a discesa Aggiungi destinazione con Lakehouse evidenziato.

  2. Connettere il nodo lakehouse al nodo o all'operatore di flusso.

  3. Nella schermata di configurazione lakehouse completare le informazioni seguenti:

    1. Immettere un nome di destinazione.
    2. Selezionare l'area di lavoro che contiene il lakehouse.
    3. Selezionare un lakehouse esistente nell'area di lavoro specificata.
    4. Selezionare una tabella Delta esistente o crearne una nuova per ricevere i dati.
    5. Selezionare il formato dei dati di input inviato al lakehouse. I formati di dati supportati sono JSON, Avro e CSV (con intestazione).

    Screenshot della parte superiore della schermata di configurazione di Lakehouse.

  4. Seleziona Avanzate.

  5. Sono disponibili due modalità di inserimento per una destinazione lakehouse. In base allo scenario, configurare queste modalità per ottimizzare il modo in cui i flussi di eventi di Fabric scrivono nel lakehouse.

    • Il numero minimo di righe è il numero minimo di righe che il lakehouse inserisce in un singolo file. Il valore minimo è 1 riga e il massimo è 2 milioni di righe per file. Minore è il numero minimo di righe, maggiore è il numero di file creati dal lakehouse durante l'inserimento.

    • La durata massima è la durata massima richiesta dal lakehouse per inserire un singolo file. Il limite minimo è 1 minuto e il massimo è 2 ore. Più lunga è la durata, più righe vengono inserite in un file.

    Screenshot della sezione Avanzato della schermata di configurazione di Lakehouse.

  6. Seleziona Salva.

  7. Per implementare la destinazione lakehouse appena aggiunta, selezionare Pubblica.

    Uno screenshot del flusso e della destinazione lakehouse in Modalità di modifica con il pulsante Pubblica evidenziato.

Dopo aver completato questi passaggi, la destinazione lakehouse è disponibile per la visualizzazione in Visualizzazione in diretta. Nel riquadro Dettagli è possibile selezionare il collegamento Ottimizza tabella nel notebook per avviare un processo Apache Spark all'interno di un notebook, che consolida i piccoli file di streaming all'interno della tabella lakehouse di destinazione.

Screenshot della destinazione lakehouse e del pulsante di ottimizzazione della tabella in Visualizzazione in diretta.

Per informazioni su come aggiungere altre destinazioni a un eventstream, vedere gli articoli seguenti:

Prerequisiti

Prima di iniziare, è necessario soddisfare i seguenti prerequisiti:

  • Accesso a un'area di lavoro in modalità di licenza della capacità di Infrastruttura (o) modalità licenza di valutazione con autorizzazioni di collaboratore o superiore.
  • Ottenere l'accesso a un'area di lavoro con autorizzazioni di Collaboratore o superiore in cui si trova il lakehouse.

Nota

Il numero massimo di origini e destinazioni per un eventstream è 11.

Aggiungere una lakehouse come destinazione

Se nell'area di lavoro è stato creato un lakehouse, seguire questa procedura per aggiungerlo al flusso di eventi come destinazione:

  1. Selezionare Nuova destinazione sulla barra multifunzione o "+" nell'area di lavoro dell'editor principale e quindi selezionare Lakehouse. Viene visualizzata la schermata di configurazione della destinazione Lakehouse.

  2. Immettere un nome per la destinazione del flusso di lavoro e completare le informazioni relative al lakehouse.

    Screenshot della schermata di configurazione della destinazione Lakehouse.

    1. Lakehouse: selezionare un lakehouse esistente dall'area di lavoro specificata.

    2. Tabella delta: selezionare una tabella delta esistente o crearne una nuova per ricevere i dati.

      Nota

      Quando si scrivono dati nella tabella lakehouse, è prevista l'applicazione dello schema. Ciò significa che tutte le nuove scritture in una tabella devono essere compatibili con lo schema della tabella di destinazione in fase di scrittura, garantendo la qualità dei dati.

      Tutti i record dei dati di output vengono proiettati nello schema della tabella esistente. Quando si scrive l'output in una nuova tabella delta, lo schema della tabella viene creato in base al primo record. Se i dati in ingresso hanno una colonna aggiuntiva rispetto allo schema di tabella esistente, essi vengono scritti nella tabella senza includere la colonna aggiuntiva. Viceversa, se i dati in ingresso non contengono una colonna rispetto allo schema di tabella esistente, vengono scritti nella tabella con il valore della colonna impostato su null.

    3. Formato dati di input: selezionare il formato per i dati (dati di input) inviati al lakehouse.

      Nota

      I formati di dati degli eventi di input supportati sono JSON, Avro e CSV (con intestazione).

    4. Elaborazione eventi: è possibile usare l'editor di elaborazione eventi per specificare come devono essere elaborati i dati prima di inviarli al lakehouse. Selezionare Apri processore di eventi per aprire l'editor di elaborazione eventi. Per altre informazioni sull'elaborazione in tempo reale tramite il processore di eventi, vedere Elaborare i dati degli eventi con l'editor dell'elaboratore di eventi. Una volta terminato l'utilizzo dell'editor, selezionare Fine per tornare alla schermata di configurazione della destinazione Lakehouse.

      Screenshot che mostra l'editor del processore di eventi.

  3. Sono disponibili due modalità di inserimento per una destinazione lakehouse. Selezionare una di queste modalità per ottimizzare il modo in cui la funzionalità flussi di eventi di Fabric scrive nel lakehouse in base allo scenario in uso.

    1. Righe per file: numero minimo di righe che Lakehouse inserisce in un singolo file. Minore è il numero minimo di righe, più file Lakehouse crea durante l'inserimento. Il valore minimo è 1 riga. Il valore massimo è di 2 milioni di righe per file.

    2. Durata: durata massima richiesta da Lakehouse per inserire un singolo file. Più lunga è la durata, più righe vengono inserite in un file. Il limite minimo è 1 minuto e il massimo è 2 ore.

      Screenshot che mostra le modalità di inserimento.

  4. Selezionare Aggiungi per aggiungere la destinazione lakehouse.

  5. Collegamento di ottimizzazione tabella disponibile all'interno della destinazione lakehouse. Questa soluzione semplifica l'avvio di un processo Spark all'interno di un notebook, che consolida questi piccoli file di streaming all'interno della tabella Lakehouse di destinazione.

    Screenshot che mostra le impostazioni di ottimizzazione della tabella.

  6. Una destinazione lakehouse viene visualizzata nell'area di lavoro, con un indicatore di stato rotante. Il sistema richiede alcuni minuti per modificare lo stato in Attivo.

    Screenshot che mostra la destinazione lakehouse.

Gestire una destinazione

Modificare/rimuovere: è possibile modificare o rimuovere una destinazione eventstream tramite il riquadro di spostamento o l'area di lavoro.

Quando si seleziona Modifica, il riquadro di modifica viene aperto sul lato destro dell'editor principale. È possibile modificare la configurazione nel modo desiderato, inclusa la logica di trasformazione degli eventi tramite l'editor del processore di eventi.

Screenshot che mostra dove selezionare le opzioni di modifica ed eliminazione per le destinazioni nell'area di lavoro.

Per informazioni su come aggiungere altre destinazioni a un eventstream, vedere gli articoli seguenti: