Pulire e trasformare i dati con l'editor di Power Query
Ora che è stata eseguita la connessione a un'origine dati tramite Microsoft Power BI Desktop, è necessario modificare i dati in modo da soddisfare le esigenze specifiche. In alcuni casi per modifica si intende la trasformazione dei dati, ad esempio tramite la ridenominazione di colonne o tabelle, la modifica di testo in numeri, la rimozione di righe oppure l'impostazione della prima riga come intestazione.
L'editor di Power Query in Power BI Desktop usa in modo esteso i menu di scelta rapida (noti anche come menu contestuali), oltre a rendere disponibili le attività sulla barra multifunzione. La maggior parte delle opzioni che è possibile selezionare nella scheda Trasforma della barra multifunzione è disponibile anche facendo clic con il pulsante destro del mouse su un elemento (ad esempio una colonna) e quindi selezionando un comando nel menu di scelta rapida visualizzato.
Modellazione di dati
Quando si modellano i dati nell'editor di Power Query, si specificano istruzioni dettagliate che l'editor di Power Query esegue per modificare i dati quando li carica e li presenta. L'origine dati originale non è interessata. Viene modificata o modellata solo questa particolare vista dei dati.
I passaggi specificati (ad esempio rinominare una tabella, trasformare un tipo di dati o eliminare colonne) vengono registrati dall'editor di Power Query. Tali passaggi vengono quindi eseguiti ogni volta che la query si connette all'origine dati, in modo che i dati siano sempre modellati nel modo indicato. Questo processo viene eseguito ogni volta che si usa la query in Power BI Desktop oppure ogni volta che un utente usa la query condivisa (ad esempio nel servizio Power BI). I passaggi vengono acquisiti in sequenza in Passaggi applicati nel riquadro Impostazioni di Power Query.
La figura seguente mostra il riquadro Impostazioni query per una query modellata. Nei paragrafi successivi viene descritto in dettaglio ogni passaggio.
Torniamo ai dati relativi al pensionamento trovati tramite la connessione all'origine dati Web per modellarli in base alle esigenze.
Nota
Se non è stato scaricato il set di dati di esempio, vedere la pagina dell'unità precedente.
I dati devono essere numeri. In questo caso sono corretti, ma qualora fosse necessario modificare il tipo di dati, fare clic con il pulsante destro del mouse sull'intestazione di colonna e quindi scegliere Modifica tipo > Numero intero. Se è necessario modificare più di una colonna, selezionarne una e quindi tenere premuto MAIUSC mentre si selezionano altre colonne adiacenti. Fare clic con il pulsante destro del mouse su un'intestazione di colonna per modificare tutte le colonne selezionate. È anche possibile usare CTRL per selezionare colonne non adiacenti.
Nota
Power Query rileva spesso che una colonna di testo deve essere costituita da numeri e modifica automaticamente il tipo di dati quando inserisce la tabella nell'editor di Power Query. In tal caso un passaggio in Passaggi applicati identifica l'operazione eseguita automaticamente da Power Query.
È anche possibile modificare o trasformare queste colonne da testo a intestazione tramite la scheda Trasforma sulla barra multifunzione. L'immagine seguente mostra la scheda Trasforma. La casella rossa evidenzia il pulsante Tipo di dati, che consente di trasformare il tipo di dati corrente in un altro.
Si noti che l'elenco Passaggi applicati nel riquadro Impostazioni query riflette tutte le modifiche apportate. Per rimuovere un passaggio dal processo di modellazione dei dati, selezionarlo e quindi selezionare il pulsante X a sinistra del passaggio stesso.
Connettersi ai dati
I dati relativi ai diversi stati sono interessanti e saranno utili per la creazione di altre analisi e query. Si è tuttavia verificato un problema: la maggior parte dei dati usa un'abbreviazione di due lettere per i codici di stato, non il nome completo dello stato. È necessario pertanto trovare un modo per associare i nomi degli stati alle rispettive abbreviazioni.
Fortunatamente è presente un'altra origine dati pubblica che esegue questa operazione, ma è necessaria una quantità elevata di modellazione prima che sia possibile connetterla alla tabella relativa al pensionamento. Ecco la risorsa Web per le abbreviazioni degli stati:
http://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations
Nella scheda Home della barra multifunzione nell'editor di Power Query selezionare Nuova origine> Web. Immettere l'indirizzo e quindi selezionare OK. Nella finestra Strumento di navigazione vengono visualizzati i dati trovati nella pagina Web.
Selezionare la tabella Codes and abbreviations... (Codici e abbreviazioni) perché include i dati che si vogliono usare, anche se per ridurli sarà necessaria una certa quantità di modellazione.
Selezionare Carica per spostare i dati nell'editor di Power Query in modo che sia possibile modellarli. Seguire questa procedura:
Rimuovere le prime tre righe. Si tratta del risultato del modo in cui è stata creata la tabella della pagina Web e non sono necessarie. Per rimuovere le righe, nella scheda Home della barra multifunzione selezionare Rimuovi righe > Rimuovi prime righe. Nella finestra di dialogo visualizzata immettere 3 come numero di righe da rimuovere.
Rimuovere le ultime 26 righe. Si tratta di territori che non è necessario includere. Il processo è lo stesso, ma questa volta usare l'opzione Rimuovi righe > Rimuovi ultime righe e inserire 26 come numero di righe da rimuovere.
Escludere Washington DC. La tabella relativa alle statistiche di pensionamento non include Washington DC, che dunque verrà escluso dall'elenco. Selezionare la freccia in giù accanto alla colonna Federal state e quindi deselezionare la casella di controllo Federal district.
Rimuovere alcune colonne superflue. È necessario solo il mapping dello stato alla rispettiva abbreviazione ufficiale di due lettere, informazione presente nella seconda e nella quarta colonna. È sufficiente pertanto mantenere solo queste due colonne e rimuovere le altre. Selezionare la prima colonna da eliminare, quindi tenere premuto CTRL e selezionare le altre colonne da rimuovere (in questo modo è possibile selezionare più colonne non adiacenti). Nella scheda Home della barra multifunzione selezionare Rimuovi colonne > Rimuovi colonne.
Usare la prima riga come intestazioni. Poiché sono state rimosse le prime tre righe, la prima riga attuale corrisponde all'intestazione desiderata. Selezionare il pulsante Usa prima riga come intestazioni.
Nota
A questo punto è opportuno sottolineare che la sequenza dei passaggi applicati nell'editor di Power Query è importante e può influire sul modo in cui vengono modellati i dati. È anche importante considerare come un passaggio può influire su un passaggio successivo. Se si rimuove un passaggio da Passaggi applicati, i passaggi successivi potrebbero non comportarsi come previsto in origine, a causa dell'impatto della sequenza di passaggi della query.
Rinominare le colonne e la tabella. Anche in questo caso è possibile rinominare una colonna in due modi diversi. È possibile usare il modo preferito. Rinominare le colonne in State Name e State Code. Per rinominare la tabella, è sufficiente immettere il nome nel campo Name del riquadro Impostazioni query. Denominiamo la tabella StateCodes.
Combinare i dati
Ora che la tabella StateCodes è modellata, è possibile combinare due tabelle in una. Poiché le tabelle ora disponibili sono il risultato delle query applicate ai dati, vengono spesso definite come query.
Esistono due modi principali per combinare le query, ovvero unione e accodamento.
Quando sono presenti una o più colonne da aggiungere a un'altra query, unire le query. Quando sono presenti altre righe di dati da aggiungere a una query esistente, accodare la query.
In questo caso si usa l'unione delle query. Per iniziare, selezionare la query con cui si vuole unire l'altra query. Nella scheda Home della barra multifunzione selezionare Merge di query. Vogliamo selezionare per prima cosa la query relativa al pensionamento. Tale query viene rinominata in RetirementStats.
Viene visualizzata la finestra di dialogo Merge in cui viene richiesto di selezionare la tabella di cui eseguire il merge nella tabella selezionata e quindi le colonne corrispondenti da usare per il merge.
Selezionare State nella tabella RetirementStats (query) e quindi selezionare la query StateCodes. In questo caso, la scelta è semplice, perché è disponibile solo una query. Ma quando ci si connette a molte origini dati, ci saranno molte query da scegliere. Dopo aver selezionato le colonne corrispondenti corrette, stato da RitiroStats e Nome stato da StateCodes, la finestra di dialogo Unione sarà simile a questa e il pulsante OK diventerà disponibile.
Alla fine della query viene creato un elemento NewColumn, che include i contenuti della tabella (query) unita alla query esistente. Tutte le colonne della query unita vengono inserite in NewColumn, ma è possibile espandere la tabella e includere tutte le colonne desiderate. Per espandere la tabella unita e selezionare le colonne da includere, selezionare l'icona di espansione (). Viene visualizzata la finestra di dialogo Espandi.
In questo caso è necessaria solo la colonna State Code. Selezionare solo questa colonna e quindi selezionare OK. È anche possibile deselezionare la casella di controllo Usa il nome della colonna originale come prefisso. Se si lascia selezionata questa opzione, la colonna unita viene denominata NewColumn.State Code (nome della colonna originale oppure NewColumn seguito da punto e quindi dal nome della colonna da inserire nella query).
Nota
Se si desidera, è possibile provare a inserire la tabella NewColumn. Se i risultati non sono soddisfacenti, è sufficiente eliminare il passaggio Espandi dall'elenco Passaggi applicati nel riquadro Impostazioni query. La query torna allo stato precedente all'applicazione del passaggio specifico. È possibile operare liberamente e ripetere l'operazione tutte le volte che si desidera fino a quando il processo di espansione non ha l'aspetto voluto.
È ora disponibile una singola query (tabella) che combina due origini dati, ognuna delle quali modellata in modo da soddisfare le esigenze specifiche. Tale query può essere usata come base per un numero elevato di connessioni dati aggiuntive e interessanti, ad esempio statistiche dei costi delle abitazioni, dati demografici oppure opportunità di lavoro in qualsiasi stato.
Per applicare le modifiche nell'editor di Power Query e caricarle in Power BI Desktop, selezionare Chiudi e applica nella scheda Home della barra multifunzione.
A questo punto i dati nel modello sono pronti per essere usati. In seguito verranno creati alcuni oggetti visivi per il report.
Per il momento sono disponibili dati sufficienti per creare alcuni report interessanti direttamente in Power BI Desktop. Poiché si tratta di un'attività cardine, è possibile salvare questo file di Power BI Desktop. Selezionare File > Salva nella scheda Home della barra multifunzione per salvare il report, denominato Getting Started with Power BI Desktop.
Corretto. Passiamo ora all'unità successiva in cui verranno creati alcuni oggetti visivi interessanti.