Condividi tramite


Avvio rapido: creare il primo flusso di dati per ottenere e trasformare i dati

I flussi di dati sono una tecnologia self-service e basata sul cloud per la preparazione dei dati. Questo articolo si descrive come creare il primo flusso di dati, come ottenere i dati per il flusso di dati e infine come trasformare i dati e pubblicare il flusso di dati.

Prerequisiti

Prima di cominciare, sono necessari i seguenti prerequisiti:

Creazione di un flusso di dati

Questa sezione si descrive come creare il primo flusso di dati.

  1. Aprire l'esperienza Data Factory.

  2. Accedere all'area di lavoro di Microsoft Fabric.

    Screenshot della finestra delle aree di lavoro in cui si accede all'area di lavoro.

  3. Selezionare Nuovo, quindi Selezionare Flusso di dati Gen2.

    Screenshot con la selezione Dataflow Gen2 evidenziata.

Recupero dei dati

Recuperiamo alcuni dati. In questo esempio i dati vengono recuperati da un servizio OData. La procedura seguente descrive come inserire i dati nel flusso di dati.

  1. Nell'editor del flusso di dati selezionare Recupera dati e quindi selezionare Altro.

    Screenshot con l'opzione Recupera dati selezionata e l'opzione Altro evidenziata nel menu a discesa.

  2. In Scegli origine dati selezionare Visualizza altro.

    Screenshot dell'opzione Recupera origine dati con l'opzione Visualizza altro evidenziata.

  3. In Nuova origine selezionare Altro>OData come origine dati.

    Screenshot dell'opzione Recupera origine dati con la categoria Altro e il connettore OData evidenziati.

  4. Immettere l'URL https://services.odata.org/v4/northwind/northwind.svc/ e quindi selezionare Avanti.

    Screenshot dell'origine dati OData in cui si immette l'URL dei dati.

  5. Selezionare le tabelle Ordini e Clienti, quindi selezionare Crea.

    Screenshot dello strumento di spostamento Power Query con le tabelle Clienti e Ordini evidenziate.

Per altre informazioni sull'esperienza e sulle funzionalità di recupero dei dati, vedere Panoramica sul recupero dei dati.

Applicare le trasformazioni e pubblicare

Hai caricato i tuoi dati nel tuo primo flusso di dati adesso. Felicitazioni! È ora possibile applicare alcune trasformazioni in modo che i dati vengano riportati nella forma desiderata.

Questa attività viene eseguita dall'editor di Power Query. Nell'interfaccia utente di Power Query è disponibile una panoramica dettagliata dell'editor di Power Query.

Per applicare trasformazioni e pubblicare, seguire questi passaggi:

  1. Verificare che gli strumenti di profilatura dati siano abilitati in Home>Opzioni>Opzioni globali.

    Screenshot delle Opzioni globali con le selezioni del profilo colonna evidenziate.

    Assicurarsi inoltre di abilitare la visualizzazione diagramma usando le opzioni nella scheda Visualizza della barra multifunzione dell'editor di Power Query oppure selezionando l'icona della visualizzazione diagramma sul lato inferiore destro della finestra di Power Query.

    Screenshot dell'aspetto complessivo della visualizzazione del diagramma di Power Query.

  2. Nella tabella Ordini viene calcolato il numero totale di ordini per cliente. Per ottenere questo risultato, selezionare la colonna IdCliente nell'anteprima dei dati e quindi selezionare Raggruppa per nella scheda Trasforma della barra multifunzione.

    Screenshot che mostra la tabella Ordini selezionata e Raggruppa per evidenziata nella scheda Trasforma.

  3. Si esegue un conteggio delle righe come aggregazione all'interno di Raggruppa per. Per altre informazioni sulle funzionalità Raggruppa per, vedere Raggruppare o riepilogare le righe.

    Screenshot di Raggruppa per con l'operazione Conteggio righe selezionata.

  4. Dopo il raggruppamento dei dati nella tabella Ordini, si otterrà una tabella con due colonne: IDCliente e Conteggio.

    Screenshot della tabella a due colonne.

  5. Successivamente, si vogliono combinare i dati della tabella Clienti con il conteggio degli ordini per cliente. Per combinare i dati, selezionare la query Clienti nella visualizzazione Diagramma e usare il menu "⋮" per accedere alla trasformazione Unisci query come nuova.

    Screenshot dell'editor del flusso di dati, in cui sono evidenziati i puntini di sospensione verticali della tabella Clienti e l'opzione Unisci query come nuova.

  6. Configurare l'operazione di unione come illustrato nello screenshot seguente selezionando IDCliente come colonna di corrispondenza nelle due tabelle. Quindi scegliere OK.

    Screenshot della schermata Unione.

    Screenshot della finestra Unione con la tabella di sinistra dell'unione impostata sulla tabella Clienti e la tabella di destra dell'unione impostata sulla tabella Ordini. La colonna IDCliente è selezionata sia nella tabella Clienti che nella tabella Ordini. Inoltre, il tipo di join è impostato su Left Outer. Tutte le altre opzioni sono sui valori predefiniti.

  7. Dopo aver eseguito l'operazione Unisci query come nuova, si ottiene una nuova query con tutte le colonne della tabella Clienti e una colonna con dati annidati estratta dalla tabella Ordini.

    Screenshot dell'editor di flussi di dati con la nuova query di unione aggiunta a destra delle tabelle Clienti e Ordini.

  8. In questo esempio, ci interessa solo un sottoinsieme di colonne della tabella Clienti. È possibile selezionare queste colonne usando la visualizzazione schema. Abilitare la visualizzazione schema all'interno dell'interruttore nell'angolo in basso a destra dell'editor dei flussi di dati.

    Screenshot dell'editor dei flussi di dati con il pulsante visualizzazione schema evidenziato nell'angolo in basso a destra.

  9. La vista schema fornisce una visualizzazione incentrata sulle informazioni relative allo schema di una tabella, inclusi i nomi di colonna e i tipi di dati. La visualizzazione schema include un set di strumenti dello schema disponibili tramite una scheda della barra multifunzione contestuale. In questo scenario, selezionare le colonne IDCliente, NomeAzienda e Ordini (2), quindi selezionare il pulsante Rimuovi colonne e quindi selezionare Rimuovi altre colonne nella scheda Strumenti schema.

    Screenshot della visualizzazione schema che mostra tutti i nomi di colonna disponibili, con le colonne IDCliente, NomeAzienda e Ordini (2) evidenziate.

    Screenshot del menu strumenti dello schema con l'opzione Rimuovi altre colonne evidenziata.

  10. La colonna Ordini (2) contiene informazioni annidate risultanti dall'operazione di unione eseguita nei passaggi precedenti. Tornare ora alla visualizzazione dati selezionando il pulsante Mostra visualizzazione dati situato accanto al pulsante Mostra visualizzazione schema nell'angolo in basso a destra dell'interfaccia utente. Usare quindi la trasformazione Espandi colonna nell'intestazione di colonna Ordini (2) per selezionare la colonna Conteggio.

    Screenshot dell'uso della visualizzazione dati.

  11. L'ultima operazione che si desidera effettuare è la classificazione dei clienti in base al numero di ordini. Selezionare la colonna Conteggio e quindi selezionare il pulsante Classifica colonna nella scheda Aggiungi colonna sulla barra multifunzione.

    Screenshot dell'editor dei flussi di dati con la colonna Conteggio selezionata.

  12. Mantenere le impostazioni predefinite in Classifica colonna. Quindi, selezionare OK per applicare questa trasformazione.

    Screenshot della finestra Classifica con tutte le impostazioni predefinite visualizzate.

  13. Rinominare ora la query risultante come Clienti classificati usando il riquadro Impostazioni query sul lato destro della schermata.

    Screenshot dell'editor dei flussi di dati con il nome Clienti classificati sottolineato nelle proprietà delle impostazioni della query.

  14. Dopo aver completato la trasformazione e la combinazione dei dati, è possibile configurare le relative impostazioni di destinazione di output. Selezionare Scegli destinazione dati nella parte inferiore del riquadro Impostazioni query.

    Screenshot dell'editor dei flussi di dati con il percorso della selezione Destinazione dati evidenziato.

  15. Per questo passaggio, è possibile configurare un output in lakehouse se disponibile; in caso contrario ignorare questo passaggio. In questa esperienza è possibile configurare il lakehouse di destinazione e la tabella per i risultati della query, oltre al metodo di aggiornamento (Aggiungi o Sostituisci).

    Screenshot della finestra Connetti alla destinazione dati con lakehouse selezionato.

    Screenshot della finestra Scegli impostazioni di destinazione.

  16. Il flusso di dati è ora pronto per la pubblicazione. Esaminare le query nella visualizzazione diagramma, quindi selezionare Pubblica.

    Screenshot dell'editor dei flussi di dati con il pulsante Pubblica evidenziato sul lato in basso a destra.

    Si torna all'area di lavoro. Un'icona di a forma di rotellina accanto al nome del flusso di dati indica che la pubblicazione è in corso. Al termine della pubblicazione, il flusso di dati è pronto per l'aggiornamento.

    Importante

    Quando si crea il primo Dataflow Gen2 in un'area di lavoro, viene eseguito il provisioning degli elementi Lakehouse e Warehouse insieme ai relativi modelli semantici ed endpoint di analisi SQL correlati. Questi elementi sono condivisi da tutti i flussi di dati nell'area di lavoro e sono necessari per il funzionamento di Dataflow Gen2, non devono essere eliminati e non devono essere usati direttamente dagli utenti. Gli elementi sono un dettaglio di implementazione di Dataflow Gen2. Gli elementi non sono visibili nell'area di lavoro, ma potrebbero essere accessibili in altre esperienze, ad esempio notebook, endpoint di analisi SQL, Lakehouse e Warehouse. È possibile riconoscere gli elementi in base al prefisso nel nome. Il prefisso degli elementi è "DataflowsStaging".

  17. Nella propria area di lavoro, selezionare l'icona Pianifica aggiornamento.

    Screenshot dell'area di lavoro con l'icona Pianifica aggiornamento evidenziata.

  18. Attivare l'aggiornamento pianificato, selezionare Aggiungi un altro orario e configurare l'aggiornamento come illustrato nello screenshot seguente.

    Screenshot che mostra come selezionare un altro orario.

    Screenshot delle opzioni Pianifica aggiornamento, con l'aggiornamento pianificato attivato, la frequenza di aggiornamento impostata su Giornaliero, il fuso orario impostato sul tempo coordinato universale e l'ora impostata su 4:00 AM. Sono evidenziati il pulsante On, la selezione Aggiungi un altro orario, il proprietario del flusso di dati e il pulsante Applica.

Pulire le risorse

Se non si intende continuare a usare questa applicazione, eliminare il flusso di dati seguendo questi passaggi:

  1. Accedere all'area di lavoro di Microsoft Fabric.

    Screenshot della finestra delle aree di lavoro in cui si accede all'area di lavoro.

  2. Selezionare i puntini di sospensione verticali accanto al nome di un flusso di dati, quindi selezionare Elimina.

    Screenshot con i tre punti verticali e l'opzione di eliminazione nel menu a discesa evidenziata.

  3. Scegliere Elimina per confermare l'eliminazione del flusso di dati.

    Screenshot della finestra Elimina flusso di dati con il pulsante Elimina evidenziato.

Il flusso di dati in questo esempio illustra come caricare e trasformare i dati in Dataflow Gen2. Contenuto del modulo:

  • Creare un Dataflow Gen2.
  • Trasformare i dati.
  • Configurare le impostazioni di destinazione per i dati trasformati.
  • Eseguire e pianificare la pipeline di dati.

Passare all'articolo successivo per informazioni su come creare la prima pipeline di dati.