Scenari di utilizzo di Power BI: preparazione avanzata dei dati
Nota
Questo articolo fa parte della serie di articoli sulla pianificazione dell'implementazione di Power BI. Questa serie è incentrata principalmente sull'esperienza Power BI in Microsoft Fabric. Per un'introduzione alla serie, vedere Pianificazione dell'implementazione di Power BI.
La preparazione dei dati (talvolta definita ETL, acronimo di Extract, Transform e Load) attività spesso comporta un grande sforzo. Il tempo, la competenza e lo sforzo necessari per raccogliere, pulire, combinare e arricchire i dati dipendono dalla qualità e dalla struttura dei dati di origine.
Investire tempo e impegno nella preparazione centralizzata dei dati comporta quanto segue:
- Migliorare la riutilizzabilità e ottenere il massimo valore dalle attività di preparazione dei dati.
- Migliorare la possibilità di fornire dati coerenti a più team.
- Ridurre il livello di impegno richiesto da altri creatori di contenuti.
- Ottenere scalabilità e prestazioni.
Lo scenario di utilizzo avanzato della preparazione dei dati si espande nello scenario di preparazione dei dati self-service. La preparazione avanzata dei dati riguarda l'aumento del riutilizzo del flusso di dati da parte di più utenti in vari team e per vari casi d'uso.
Le aree di lavoro separate, organizzate in base allo scopo del flusso di dati, sono utili quando l'output del flusso di dati viene fornito a più creatori di modelli semantici, soprattutto quando si trovano in team diversi nell'organizzazione. Le aree di lavoro separate sono utili anche per la gestione dei ruoli di sicurezza quando le persone che creano e gestiscono flussi di dati sono diverse dalle persone che le usano.
Nota
Lo scenario di preparazione dei dati avanzata è il secondo degli scenari di preparazione dei dati. Questo scenario si basa su ciò che è possibile eseguire con flussi di dati centralizzati, come descritto nello scenario di preparazione dei dati self-service.
Lo scenario di preparazione dei dati avanzata è uno degli scenari di business intelligence self-service. Tuttavia, un membro del team centralizzato può usare le tecniche in modo analogo a quello descritto nello scenario di business intelligence self-service gestita. Per un elenco completo degli scenari self-service, vedere l'articolo scenari di utilizzo di Power BI.
Per brevità, alcuni aspetti descritti nell'argomento scenari di collaborazione e distribuzione dei contenuti non sono trattati in questo articolo. Per una copertura completa, leggere prima questi articoli.
Diagramma dello scenario
Suggerimento
Se non si ha familiarità con questo scenario, è consigliabile esaminare lo scenario di utilizzo della preparazione dei dati self-service. Lo scenario avanzato di preparazione dei dati self-service si basa su tale scenario.
L'obiettivo di questo scenario avanzato di preparazione dei dati è il seguente:
- Uso di flussi di dati separati in base allo scopo: staging, trasformazione o finale. È consigliabile usare blocchi predefiniti componibili per ottenere un riutilizzo maggiore, in varie combinazioni, per supportare requisiti utente specifici. I blocchi predefiniti componibili sono descritti più avanti in questo articolo.
- Uso di aree di lavoro separate che supportano creatori di flussi di dati o consumer di flussi di dati. I modelli di dati, che usano flussi di dati, possono trovarsi in team diversi e/o hanno casi d'uso diversi.
- Uso di tabelle collegate (note anche come entità collegate), tabelle calcolate (note anche come entità calcolate) e motore di calcolo avanzato.
Nota
In alcuni casi, i termini modello semantico e modello di dati vengono usati in modo intercambiabile. In genere, dal punto di vista del servizio Power BI, si parla di modello semantico. Dal punto di vista dello sviluppo, si parla di modello di dati (o modello, in breve). In questo articolo, entrambi i termini hanno lo stesso significato. Allo stesso modo, un creatore di modelli semantici e un modellatore di dati hanno lo stesso significato.
Il diagramma seguente illustra una panoramica generale delle azioni utente più comuni e dei componenti di Power BI che supportano lo scenario di preparazione dei dati avanzata.
Suggerimento
È consigliabile scaricare il diagramma dello scenario se si vuole incorporarlo nella presentazione, nella documentazione o nel post di blog oppure stamparlo come poster a parete. Poiché si tratta di un'immagine SVG (Scalable Vector Graphics), è possibile aumentarla o ridurla senza perdita di qualità.
Il diagramma dello scenario illustra le azioni utente, gli strumenti e le funzionalità seguenti:
Articolo | Descrizione |
---|---|
L'autore del flusso di dati sviluppa una raccolta di tabelle all'interno di un flusso di dati. Per un flusso di dati destinato al riutilizzo, è comune (ma non necessario) che l'autore appartenga a un team centralizzato che supporta gli utenti oltre i limiti dell'organizzazione (ad esempio IT, business BI o Centro di eccellenza). | |
Il flusso di dati si connette ai dati da una o più origini dati. | |
Alcune origini dati possono richiedere un gateway dati locale o un gateway di rete virtuale per l'aggiornamento dei dati, ad esempio quelli che risiedono all'interno di una rete aziendale privata. Questi gateway vengono usati sia per la creazione del flusso di dati in Power Query Online che per l'aggiornamento del flusso di dati. | |
Tutte le aree di lavoro coinvolte hanno impostato la modalità di licenza su Capacità Fabric, capacità Premium, Premium per utente o Embedded. Queste modalità di licenza consentono l'uso di tabelle collegate e tabelle calcolate tra aree di lavoro, necessarie in questo scenario. | |
Gli autori di flussi di dati sviluppano flussi di dati usando Power Query Online, una versione basata sul Web di Power Query. | |
Un flusso di dati di staging viene creato in un'area di lavoro dedicata alla gestione centralizzata dei flussi di dati. Un flusso di dati di staging copia i dati non elaborati così come sono dall'origine. Vengono applicate poche trasformazioni, a volte nessuna. | |
Un flusso di dati di trasformazione (noto anche come flusso di dati pulito) viene creato nella stessa area di lavoro. Origini dati usando tabelle collegate al flusso di dati di staging. Le tabelle calcolate includono passaggi di trasformazione che preparano, puliscono e modificano i dati. | |
Gli autori di flussi di dati hanno accesso per gestire il contenuto nell'area di lavoro dedicata alla gestione centralizzata dei flussi di dati. | |
Esistono una o più aree di lavoro destinate a fornire l'accesso al flusso di dati finale, che fornisce dati pronti per la produzione ai modelli di dati. | |
Il flusso di dati finale viene creato in un'area di lavoro disponibile per i modelli di dati. Origini dati usando tabelle collegate al flusso di dati di trasformazione. Le tabelle calcolate rappresentano l'output preparato visibile ai modelli di dati a cui viene concesso il ruolo visualizzatore dell'area di lavoro. | |
Gli autori di modelli semantici (che usano l'output del flusso di dati) hanno accesso al visualizzatore all'area di lavoro che contiene l'output finale del flusso di dati. Gli autori di flussi di dati hanno anche accesso per gestire e pubblicare contenuto nell'area di lavoro (non illustrato nel diagramma dello scenario). | |
Gli autori di modelli semantici usano il flusso di dati finale come origine dati durante lo sviluppo di un modello di dati in Power BI Desktop. Quando si è pronti, l'autore del modello semantico pubblica il file di Power BI Desktop (con estensione pbix) che contiene il modello di dati nel servizio Power BI (non illustrato nel diagramma dello scenario). | |
Gli amministratori dell'infrastruttura gestiscono le impostazioni nel portale di amministrazione. | |
Nel portale di amministrazione gli amministratori di Power BI possono configurare connessioni di Azure per archiviare i dati del flusso di dati nell'account Azure Data Lake Storage Gen2 (ADLS Gen2). Le impostazioni includono l'assegnazione di un account di archiviazione a livello di tenant e l'abilitazione delle autorizzazioni di archiviazione a livello di area di lavoro. | |
Per impostazione predefinita, i flussi di dati archiviano i dati usando l'archiviazione interna gestita dal servizio Power BI. Facoltativamente, l'output dei dati dal flusso di dati può essere archiviato nell'account ADLS Gen2 dell'organizzazione. | |
Gli amministratori dell'infrastruttura sorvegliano e monitorano l'attività nel portale di Fabric. |
Punti chiave
Di seguito sono riportati alcuni punti chiave da sottolineare sullo scenario di preparazione dei dati avanzata.
Flussi di dati
Un flusso di dati comprende una raccolta di tabelle, note anche come entità. Ogni tabella è definita da una query, che contiene i passaggi di preparazione dei dati necessari per caricare la tabella con i dati. Tutto il lavoro per creare un flusso di dati viene eseguito in Power Query Online. È possibile creare un flusso di dati in più prodotti, tra cui Power Apps, Dynamics 365 Customer Insights e Power BI.
Nota
Non è possibile creare flussi di dati in un'area di lavoro personale nel servizio Power BI.
Tipi di flussi di dati
L'uso di blocchi predefiniti componibili è un principio di progettazione che consente di gestire, distribuire e proteggere i componenti di sistema e quindi usarli in varie combinazioni. La creazione di flussi di dati modulari e indipendenti specifici per uno scopo è una procedura consigliata. Questi consentono di ottenere il riutilizzo dei dati e la scalabilità aziendale. I flussi di dati modulari sono anche più facili da gestire e testare.
Nel diagramma dello scenario vengono visualizzati tre tipi di flussi di dati: flusso di dati di staging, flusso di dati di trasformazione e flusso di dati finale.
Flusso di dati di gestione temporanea
Un flusso di dati di staging (talvolta definito flusso di dati di estrazione dati) copia i dati non elaborati così come sono dall'origine. L'estrazione dei dati non elaborati con una trasformazione minima significa che i flussi di dati di trasformazione downstream (descritti di seguito) possono usare il flusso di dati di staging come origine. Questa modularità è utile quando:
- L'accesso a un'origine dati è limitato a intervalli di tempo ristretti e/o ad alcuni utenti.
- La coerenza temporale è quella di garantire che tutti i flussi di dati downstream (e i modelli semantici correlati) forniscano dati estratti dall'origine dati contemporaneamente.
- La riduzione del numero di query inviate all'origine dati è necessaria a causa delle restrizioni del sistema di origine o della capacità di supportare le query analitiche.
- Una copia dei dati di origine è utile per i processi di riconciliazione e le verifiche della qualità dei dati.
Flusso di dati della trasformazione
Un flusso di dati di trasformazione (talvolta definito flusso di dati pulito) origina i dati dalle tabelle collegate che si connettono al flusso di dati di staging. Una procedura consigliata consiste nel separare le trasformazioni dal processo di estrazione dei dati.
Un flusso di dati di trasformazione include tutti i passaggi di trasformazione necessari per preparare e ristrutturare i dati. Tuttavia, c'è ancora un focus sulla riutilizzabilità a questo livello per garantire che il flusso di dati sia adatto a più casi d'uso e scopi.
Flusso di dati finale
Un flusso di dati finale rappresenta l'output preparato. Alcune trasformazioni aggiuntive possono verificarsi in base al caso d'uso e allo scopo. Per l'analisi, una tabella dello schema star (dimensione o fatto) è la progettazione preferita del flusso di dati finale.
Le tabelle calcolate sono visibili ai modelli di dati a cui viene concesso il ruolo visualizzatore dell'area di lavoro. Questo tipo di tabella è descritto nell'argomento tipi di tabelle del flusso di dati di seguito.
Nota
I data lake hanno spesso zone, come bronzo, argento e oro. I tre tipi di flussi di dati rappresentano un modello di progettazione simile. Per prendere le decisioni migliori possibili sull'architettura dei dati, dare un'idea a chi manterrà i dati, l'uso previsto dei dati e il livello di competenza richiesto dagli utenti che accedono ai dati.
Aree di lavoro per i flussi di dati
Se si dovesse creare tutti i flussi di dati in una singola area di lavoro, l'estensione della riutilizzabilità sarebbe significativamente limitata. L'uso di una singola area di lavoro limita anche le opzioni di sicurezza disponibili per supportare più tipi di utenti tra team e/o per casi d'uso diversi. È consigliabile usare più aree di lavoro. Queste offrono una maggiore flessibilità quando è necessario supportare creatori self-service da diverse aree dell'organizzazione.
I due tipi di aree di lavoro mostrati nel diagramma dello scenario includono:
- Area di lavoro 1: archivia flussi di dati gestiti centralmente (talvolta definiti area di lavoro back-end). Contiene sia i flussi di dati di gestione temporanea che i flussi di dati di trasformazione perché sono gestiti dagli stessi utenti. I creatori di flussi di dati spesso provengono da un team centralizzato, ad esempio IT, BI o Center of Excellence. Devono essere assegnati al ruolo di amministratore, membro o collaboratore dell'area di lavoro.
- Area di lavoro 2: archivia e distribuisce l'output finale del flusso di dati ai consumer dei dati (talvolta definito area di lavoro utente). Gli autori di modelli semantici sono spesso analisti self-service, utenti esperti o data engineer locali. Devono essere assegnati al ruolo visualizzatore dell'area di lavoro perché devono usare solo l'output del flusso di dati finale. Per supportare creatori di modelli semantici provenienti da diverse aree dell'organizzazione, è possibile creare numerose aree di lavoro come questa, in base alle esigenze di sicurezza e dei casi d'uso.
Suggerimento
È consigliabile esaminare i modi per supportare gli autori di modelli semantici come descritto nello scenario di utilizzo della preparazione dei dati self-service. È importante comprendere che gli autori di modelli semantici possono comunque usare le funzionalità complete di Power Query in Power BI Desktop. Possono scegliere di aggiungere passaggi di query per trasformare ulteriormente i dati del flusso di dati o unire l'output del flusso di dati con altre origini.
Tipi di tabelle del flusso di dati
Tre tipi di tabelle del flusso di dati (note anche come entità) vengono illustrati nel diagramma dello scenario.
- Tabella standard: esegue query su un'origine dati esterna, ad esempio un database. Nel diagramma dello scenario le tabelle standard vengono descritte nel flusso di dati di staging.
- Tabella collegata: fa riferimento a una tabella da un altro flusso di dati. Una tabella collegata non duplica i dati. Invece, consente il riutilizzo di una tabella standard più volte per più scopi. Le tabelle collegate non sono visibili ai visualizzatori dell'area di lavoro perché ereditano le autorizzazioni dal flusso di dati originale. Nel diagramma dello scenario le tabelle collegate vengono rappresentate due volte:
- Nel flusso di dati di trasformazione per l'accesso ai dati nel flusso di dati di staging.
- Nel flusso di dati finale per l'accesso ai dati nel flusso di dati di trasformazione.
- Tabella calcolata: esegue calcoli aggiuntivi usando un flusso di dati diverso come origine. Le tabelle calcolate consentono di personalizzare l'output in base alle esigenze per i singoli casi d'uso. Nel diagramma dello scenario le tabelle calcolate vengono rappresentate due volte:
- Nel flusso di dati della trasformazione per eseguire trasformazioni comuni.
- Nel flusso di dati finale per la distribuzione dell'output ai creatori di modelli semantici. Poiché le tabelle calcolate salvano nuovamente i dati (dopo l'aggiornamento del flusso di dati), i modelli di dati possono accedere alle tabelle calcolate nel flusso di dati finale. In questo caso, ai modelli di dati deve essere concesso l'accesso con il ruolo visualizzatore dell'area di lavoro.
Nota
Esistono molte tecniche di progettazione, modelli e procedure consigliate che possono portare flussi di dati da self-service a enterprise. Inoltre, i flussi di dati in un'area di lavoro con la modalità di licenza impostata su Premium per utente o Capacità Premium possono trarre vantaggio dalle funzionalità avanzate. Le tabelle collegate e le tabelle calcolate (note anche come entità) sono due funzionalità avanzate essenziali per aumentare la riutilizzabilità dei flussi di dati.
Motore di calcolo avanzato
Il motore di calcolo avanzato è una funzionalità avanzata disponibile con Power BI Premium.
Importante
A volte questo articolo si riferisce a Power BI Premium o alle relative sottoscrizioni di capacità (SKU P). Tenere presente che Microsoft sta attualmente consolidando le opzioni di acquisto e ritirando gli SKU di Power BI Premium per capacità. I clienti nuovi ed esistenti devono invece prendere in considerazione l'acquisto di sottoscrizioni con capacità Fabric (SKU F).
Per altre informazioni, vedere Aggiornamento importante disponibile per le licenze Power BI Premium e Domande frequenti su Power BI Premium.
Il motore di calcolo avanzato migliora le prestazioni delle tabelle collegate (all'interno della stessa area di lavoro) che fanno riferimento (collegamento) al flusso di dati. Per ottenere il massimo vantaggio dal motore di calcolo avanzato:
- Suddividere i flussi di dati di gestione temporanea e trasformazione.
- Usare la stessa area di lavoro per archiviare i flussi di dati di gestione temporanea e trasformazione.
- Applicare operazioni complesse che possono eseguire una riduzione delle query nelle prime fasi della query. La definizione delle priorità delle operazioni riducibili consente di ottenere prestazioni di aggiornamento ottimali.
- Usare l'aggiornamento incrementale per ridurre le durate di aggiornamento e il consumo delle risorse.
- Eseguire test in anticipo e spesso durante la fase di sviluppo.
Aggiornamento del flusso di dati e del modello semantico
Un flusso di dati è un'origine di dati per i modelli semantici. Nella maggior parte dei casi sono coinvolte più pianificazioni di aggiornamento dati: una per ogni flusso di dati e una per ogni modello semantico. In alternativa, è possibile usare DirectQuery dal modello semantico al flusso di dati, che richiede Power BI Premium e il motore di calcolo avanzato (non illustrato nel diagramma dello scenario).
Azure Data Lake Storage Gen2
Un account ADLS Gen2 è un tipo specifico di account di archiviazione di Azure con lo spazio dei nomi gerarchico abilitato. ADLS Gen2 offre vantaggi in termini di prestazioni, gestione e sicurezza per i carichi di lavoro analitici operativi. Per impostazione predefinita, i flussi di dati di Power BI usano l'archiviazione interna, ovvero un account data lake predefinito gestito dal servizio Power BI. Facoltativamente, le organizzazioni possono portare il proprio data lake connettendosi a un account ADLS Gen2 nella propria organizzazione.
Ecco alcuni vantaggi dell'uso del proprio data lake:
- Gli utenti (o i processi) possono accedere direttamente ai dati del flusso di dati archiviati nel data lake. Questo è utile quando si verifica un riutilizzo del flusso di dati oltre Power BI. Ad esempio, Azure Data Factory può accedere ai dati del flusso di dati.
- Altri strumenti o sistemi possono gestire i dati nel data lake. In questo caso, Power BI potrebbe usare i dati anziché gestirli (operazione non illustrata nel diagramma dello scenario).
Quando si usano tabelle collegate o tabelle calcolate, assicurarsi che ogni area di lavoro sia assegnata allo stesso account di archiviazione ADLS Gen2.
Nota
I dati del flusso di dati in ADLS Gen2 vengono archiviati all'interno di un contenitore specifico di Power BI. Questo contenitore è illustrato nel diagramma dello scenario di utilizzo della preparazione dei dati self-service.
Impostazioni del portale di Amministrazione
Esistono due impostazioni importanti da gestire nel portale di amministrazione:
- Connessioni di Azure: la sezione Connessioni di Azure del portale di amministrazione include un'impostazione per configurare una connessione a un account ADLS Gen2. Questa impostazione consente a un amministratore di Power BI di portare i propri flussi di dati nel data lake. Dopo la configurazione, le aree di lavoro possono usare l'account Data Lake per l'archiviazione.
- Archiviazione a livello di area di lavoro: un amministratore di Power BI può impostare le autorizzazioni di archiviazione a livello di area di lavoro. Se abilitata, l'impostazione consente agli amministratori dell'area di lavoro di usare un account di archiviazione diverso a quello impostato a livello di tenant. L'abilitazione di questa impostazione è utile per le business unit decentralizzate che gestiscono il proprio data lake in Azure.
Configurazione del gateway
In genere, è necessario un gateway dati locale per la connessione a origini dati che risiedono all'interno di una rete organizzativa privata o di una rete virtuale.
Un gateway dati è necessario quando:
- Creazione di un flusso di dati in Power Query Online che si connette a dati aziendali privati.
- Aggiornamento di un flusso di dati che si connette ai dati aziendali privati.
Suggerimento
I flussi di dati richiedono un gateway dati centralizzato in modalità standard. Un gateway in modalità personale non è supportato quando si utilizzano flussi di dati.
Panoramica del sistema
Il log attività registra le attività utente che si verificano nel servizio Power BI. Gli amministratori di Power BI possono usare i dati del log attività raccolti per eseguire controllo per aiutarli a comprendere i modelli di utilizzo e l'adozione. Il log attività è utile anche per supportare le attività di governance, i controlli di sicurezza e i requisiti di conformità. Nello scenario di preparazione dei dati avanzata, i dati del log attività sono utili per tenere traccia della gestione e dell'uso dei flussi di dati.
Contenuto correlato
Per altri scenari utili che consentono di prendere decisioni di implementazione di Power BI, vedere l'articolo Scenari di utilizzo di Power BI.