Avvio rapido: creare il primo flusso di dati per ottenere e trasformare i dati
I flussi di dati sono una tecnologia self-service e basata sul cloud per la preparazione dei dati. Questo articolo si descrive come creare il primo flusso di dati, come ottenere i dati per il flusso di dati e infine come trasformare i dati e pubblicare il flusso di dati.
Prerequisiti
Prima di cominciare, sono necessari i seguenti prerequisiti:
- Un account tenant Microsoft Fabric con una sottoscrizione attiva. Creare un account gratuito.
- Assicurarsi di disporre di un'area di lavoro abilitata per Microsoft Fabric: Creare un'area di lavoro.
Creazione di un flusso di dati
Questa sezione si descrive come creare il primo flusso di dati.
Aprire l'esperienza Data Factory.
Accedere all'area di lavoro di Microsoft Fabric.
Selezionare Nuovo, quindi Selezionare Flusso di dati Gen2.
Recupero dei dati
Recuperiamo alcuni dati. In questo esempio i dati vengono recuperati da un servizio OData. La procedura seguente descrive come inserire i dati nel flusso di dati.
Nell'editor del flusso di dati selezionare Recupera dati e quindi selezionare Altro.
In Scegli origine dati selezionare Visualizza altro.
In Nuova origine selezionare Altro>OData come origine dati.
Immettere l'URL
https://services.odata.org/v4/northwind/northwind.svc/
e quindi selezionare Avanti.Selezionare le tabelle Ordini e Clienti, quindi selezionare Crea.
Per altre informazioni sull'esperienza e sulle funzionalità di recupero dei dati, vedere Panoramica sul recupero dei dati.
Applicare le trasformazioni e pubblicare
Hai caricato i tuoi dati nel tuo primo flusso di dati adesso. Felicitazioni! È ora possibile applicare alcune trasformazioni in modo che i dati vengano riportati nella forma desiderata.
Questa attività viene eseguita dall'editor di Power Query. Nell'interfaccia utente di Power Query è disponibile una panoramica dettagliata dell'editor di Power Query.
Per applicare trasformazioni e pubblicare, seguire questi passaggi:
Verificare che gli strumenti di profilatura dati siano abilitati in Home>Opzioni>Opzioni globali.
Assicurarsi inoltre di abilitare la visualizzazione diagramma usando le opzioni nella scheda Visualizza della barra multifunzione dell'editor di Power Query oppure selezionando l'icona della visualizzazione diagramma sul lato inferiore destro della finestra di Power Query.
Nella tabella Ordini viene calcolato il numero totale di ordini per cliente. Per ottenere questo risultato, selezionare la colonna IdCliente nell'anteprima dei dati e quindi selezionare Raggruppa per nella scheda Trasforma della barra multifunzione.
Si esegue un conteggio delle righe come aggregazione all'interno di Raggruppa per. Per altre informazioni sulle funzionalità Raggruppa per, vedere Raggruppare o riepilogare le righe.
Dopo il raggruppamento dei dati nella tabella Ordini, si otterrà una tabella con due colonne: IDCliente e Conteggio.
Successivamente, si vogliono combinare i dati della tabella Clienti con il conteggio degli ordini per cliente. Per combinare i dati, selezionare la query Clienti nella visualizzazione Diagramma e usare il menu "⋮" per accedere alla trasformazione Unisci query come nuova.
Configurare l'operazione di unione come illustrato nello screenshot seguente selezionando IDCliente come colonna di corrispondenza nelle due tabelle. Quindi scegliere OK.
Screenshot della finestra Unione con la tabella di sinistra dell'unione impostata sulla tabella Clienti e la tabella di destra dell'unione impostata sulla tabella Ordini. La colonna IDCliente è selezionata sia nella tabella Clienti che nella tabella Ordini. Inoltre, il tipo di join è impostato su Left Outer. Tutte le altre opzioni sono sui valori predefiniti.
Dopo aver eseguito l'operazione Unisci query come nuova, si ottiene una nuova query con tutte le colonne della tabella Clienti e una colonna con dati annidati estratta dalla tabella Ordini.
In questo esempio, ci interessa solo un sottoinsieme di colonne della tabella Clienti. È possibile selezionare queste colonne usando la visualizzazione schema. Abilitare la visualizzazione schema all'interno dell'interruttore nell'angolo in basso a destra dell'editor dei flussi di dati.
La vista schema fornisce una visualizzazione incentrata sulle informazioni relative allo schema di una tabella, inclusi i nomi di colonna e i tipi di dati. La visualizzazione schema include un set di strumenti dello schema disponibili tramite una scheda della barra multifunzione contestuale. In questo scenario, selezionare le colonne IDCliente, NomeAzienda e Ordini (2), quindi selezionare il pulsante Rimuovi colonne e quindi selezionare Rimuovi altre colonne nella scheda Strumenti schema.
La colonna Ordini (2) contiene informazioni annidate risultanti dall'operazione di unione eseguita nei passaggi precedenti. Tornare ora alla visualizzazione dati selezionando il pulsante Mostra visualizzazione dati situato accanto al pulsante Mostra visualizzazione schema nell'angolo in basso a destra dell'interfaccia utente. Usare quindi la trasformazione Espandi colonna nell'intestazione di colonna Ordini (2) per selezionare la colonna Conteggio.
L'ultima operazione che si desidera effettuare è la classificazione dei clienti in base al numero di ordini. Selezionare la colonna Conteggio e quindi selezionare il pulsante Classifica colonna nella scheda Aggiungi colonna sulla barra multifunzione.
Mantenere le impostazioni predefinite in Classifica colonna. Quindi, selezionare OK per applicare questa trasformazione.
Rinominare ora la query risultante come Clienti classificati usando il riquadro Impostazioni query sul lato destro della schermata.
Dopo aver completato la trasformazione e la combinazione dei dati, è possibile configurare le relative impostazioni di destinazione di output. Selezionare Scegli destinazione dati nella parte inferiore del riquadro Impostazioni query.
Per questo passaggio, è possibile configurare un output in lakehouse se disponibile; in caso contrario ignorare questo passaggio. In questa esperienza è possibile configurare il lakehouse di destinazione e la tabella per i risultati della query, oltre al metodo di aggiornamento (Aggiungi o Sostituisci).
Il flusso di dati è ora pronto per la pubblicazione. Esaminare le query nella visualizzazione diagramma, quindi selezionare Pubblica.
Si torna all'area di lavoro. Un'icona di a forma di rotellina accanto al nome del flusso di dati indica che la pubblicazione è in corso. Al termine della pubblicazione, il flusso di dati è pronto per l'aggiornamento.
Importante
Quando si crea il primo Dataflow Gen2 in un'area di lavoro, viene eseguito il provisioning degli elementi Lakehouse e Warehouse insieme ai relativi modelli semantici ed endpoint di analisi SQL correlati. Questi elementi sono condivisi da tutti i flussi di dati nell'area di lavoro e sono necessari per il funzionamento di Dataflow Gen2, non devono essere eliminati e non devono essere usati direttamente dagli utenti. Gli elementi sono un dettaglio di implementazione di Dataflow Gen2. Gli elementi non sono visibili nell'area di lavoro, ma potrebbero essere accessibili in altre esperienze, ad esempio notebook, endpoint di analisi SQL, Lakehouse e Warehouse. È possibile riconoscere gli elementi in base al prefisso nel nome. Il prefisso degli elementi è "DataflowsStaging".
Nella propria area di lavoro, selezionare l'icona Pianifica aggiornamento.
Attivare l'aggiornamento pianificato, selezionare Aggiungi un altro orario e configurare l'aggiornamento come illustrato nello screenshot seguente.
Screenshot delle opzioni Pianifica aggiornamento, con l'aggiornamento pianificato attivato, la frequenza di aggiornamento impostata su Giornaliero, il fuso orario impostato sul tempo coordinato universale e l'ora impostata su 4:00 AM. Sono evidenziati il pulsante On, la selezione Aggiungi un altro orario, il proprietario del flusso di dati e il pulsante Applica.
Pulire le risorse
Se non si intende continuare a usare questa applicazione, eliminare il flusso di dati seguendo questi passaggi:
Accedere all'area di lavoro di Microsoft Fabric.
Selezionare i puntini di sospensione verticali accanto al nome di un flusso di dati, quindi selezionare Elimina.
Scegliere Elimina per confermare l'eliminazione del flusso di dati.
Contenuto correlato
Il flusso di dati in questo esempio illustra come caricare e trasformare i dati in Dataflow Gen2. Contenuto del modulo:
- Creare un Dataflow Gen2.
- Trasformare i dati.
- Configurare le impostazioni di destinazione per i dati trasformati.
- Eseguire e pianificare la pipeline di dati.
Passare all'articolo successivo per informazioni su come creare la prima pipeline di dati.