Condividi tramite


Analisi self-service e informazioni dettagliate (anteprima)

L'analisi self-service e le informazioni dettagliate si riferiscono a dati, strumenti e piattaforme che consentono agli utenti aziendali di accedere, analizzare e generare informazioni dettagliate dai dati in modo indipendente. L'applicazione di governance dei dati Microsoft Purview pubblica il modello di dominio dei metadati in Fabric OneLake e AdlsG2 (Azure Data Lake Storage), consentendo ai clienti di analizzare e generare informazioni dettagliate portando i propri strumenti e risorse di calcolo. L'analisi self-service dei metadati di governance dei dati è utile per favorire il miglioramento continuo della gestione dell'integrità dei data estate dei clienti e promuovere una cultura basata sui dati in tutta l'organizzazione democratizzando l'accesso alle informazioni dettagliate sulle proprietà dei dati e alla gestione della salute.

Componenti fondamentali

  • Modello di dati: modello 3NF con dettagli su domini e dimensioni
  • Metadati: Metadati di governance dei dati che includono:
    • Domini di governance
    • prodotti dati
    • asset di dati
    • termini del glossario
    • richiesta di sottoscrizione
    • regole di qualità dei dati
    • dimensioni
    • fatti relativi alla qualità dei dati (conteggio dei passaggi e degli errori)

Vantaggi

  • Emancipazione: Consente a professionisti dei dati, proprietari di prodotti dati, amministratori dei dati e analisti di esplorare i metadati di governance dei dati e collegare i metadati da varie origini per derivare informazioni dettagliate.
  • Flessibilità ed efficienza: Il cliente potrà creare report personalizzati oltre ai report predefiniti nella gestione dell'integrità.
  • Agilità: Consente alle organizzazioni dei clienti di rispondere più rapidamente ai problemi di gestione dell'integrità e alla correzione.
  • Conveniente: Riduce la necessità di configurare piattaforme e strumenti di compilazione. Tutti i dati sono disponibili in OneLake e il cliente potrà usare gli strumenti disponibili (modello semantico fabric, report PBI, flusso di dati e notebook) in OneLake.

Report attualmente disponibili (predefiniti)

Di seguito sono riportati i report predefiniti disponibili. Questi report non sono personalizzabili.

  • Asset classici : panoramica degli asset in base al tipo e alla raccolta e al relativo stato di cura.
  • Adozione classica del catalogo: per comprendere a colpo d'occhio come viene usato Unified Catalog. il glossario, fornendo uno snapshot dei termini e del relativo stato.
  • Classificazioni classiche : panoramica degli asset classificati e dei tipi di classificazioni.
  • Gestione dei dati classica : panoramica degli asset classificati e dei tipi di classificazioni.
  • Glossario classico : integrità e uso dei termini del glossario.
  • Etichette di riservatezza classiche : panoramica degli asset con etichette di riservatezza applicate e dei tipi di etichette applicati.
  • Governance dei dati : il report sull'integrità della governance dei dati consente al team di tenere traccia dello stato di avanzamento dell'integrità a colpo d'occhio e identificare le aree che richiedono più lavoro.
  • Integrità della qualità dei dati - Dimensioni della qualità dei dati e report sulle prestazioni delle regole di qualità dei dati.

Screenshot che mostra le informazioni dettagliate sui metadati purview.

Modello di dati per i metadati di analisi self-service

Il modello di dominio 3NF fa parte del processo di normalizzazione nella progettazione del database relazionale, che garantisce che il database sia privo di ridondanza e anomalie di aggiornamento. Uno schema di database si trova nella terza forma normale se soddisfa i requisiti della prima e della seconda Forms normale e tutti i relativi attributi dipendono funzionalmente solo dalla chiave primaria. Lo scopo del modello di dominio 3NF viene usato per strutturare i dati in modo da ridurre al minimo la duplicazione e garantire l'integrità dei dati. Si concentra sulla suddivisione dei dati in tabelle correlate più piccole in cui ogni informazione viene archiviata una sola volta.

Caratteristiche:

  • Eliminazione delle dipendenze transitive: gli attributi non chiave non devono dipendere da altri attributi non chiave.
  • Raggruppamento logico: i dati sono raggruppati logicamente in domini in base alla funzione o al significato.
  • Entity-Relationship Diagrams (ERD): comunemente usato per rappresentare i modelli di dominio 3NF, che mostrano come le entità sono correlate tra loro.
Nome di tabella Descrizione Chiavi di relazione
Stato provisioning dei criteri di accesso Le informazioni sullo stato di provisioning vengono archiviate in questa tabella. ProvisioningStateId
Tipo di risorsa criteri di accesso Le informazioni sulle risorse porlich di accesso vengono archiviate in questa tabella. ResourceTypeId
Set di criteri di accesso Informazioni generali sui criteri di accesso, sui dettagli dei casi di utilizzo dei criteri e sulla posizione in cui sono archiviati i criteri applicati e così via in questa tabella. AccessPolicySetId (UniqueId), ResourceTypeId (FK), ProvisioningStateId (FK)
Dominio aziendale I dettagli relativi a nome, descrizione, stato e proprietà del dominio aziendale vengono pubblicati nella tabella Dominio aziendale ID dominio business padre (FK), creato dall'ID utente (FK), ultima modifica dall'ID utente (FK)
Classificazione Le informazioni di classificazione degli asset di dati vengono archiviate in questa tabella. ClassificationId
Caso d'uso dell'accesso personalizzato Le informazioni sui casi d'uso di accesso vengono archiviate in questa tabella. AccessPolicySetId
Asset di dati Il nome dell'asset di dati, la descrizione e le informazioni di origine vengono archiviati in questa tabella. DataAssetId (UniqueId), DataAssetTypeId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK)
Colonna asset di dati Il nome della colonna dell'asset di dati, la descrizione della colonna e i riferimenti vengono archiviati in questa tabella. DataAssetId (FK), ColumnId (Unique), DataAssetTypeId (FK), DataTypeId (FK), Created by User ID (FK), Last Modified By User ID (FK)
Assegnazione classificazione colonna asset di dati Le chiavi di riferimento correlate all'assegnazione di classificazione dei dati vengono archiviate in questa tabella. DataAssetId (FK), ColumnId (FK), ClassificationId (FK)
Assegnazione di dominio asset di dati Le informazioni correlate all'assegnazione di domini di governance degli asset di dati sono disponibili in questa tabella. DataAssetId (FK), BusinessDomainId (FK), AssignedByUserId (FK)
Proprietario dell'asset di dati Informazioni sul proprietario dell'asset di dati archiviate in questa tabella. DataAssetOwnerId
Assegnazione del proprietario di asset di dati Le informazioni sull'assegnazione del proprietario dell'asset di dati vengono archiviate in questa tabella. DataAssetId, DataAssetOwnerId
Tipo di dati tipo di asset di dati Le informazioni sul tipo di asset di dati vengono archiviate in questa tabella. DataTypeId (UniqueId), DataAssetTypeId (FK)
Prodotto dati Nome del prodotto dati, descrizione, casi d'uso, stato e altre informazioni rilevanti archiviate in questa tabella. DataProductId (UniqueId), DataProductTypeId (FK), DataProductStatusId (FK), UpdateFrequencyId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Assegnazione di asset di prodotto dati Le informazioni sull'assegnazione di prodotti dati e asset di dati vengono archiviate in questa tabella. DataProductId, DataAssetId
Assegnazione di dominio business del prodotto dati In questa tabella vengono archiviate le informazioni sull'assegnazione dei prodotti dati e del dominio di governance. DataProductId (FK), BusinessDomainId (FK), AssignedByUserId (FK)
Documentazione del prodotto dati Le informazioni di riferimento sulla documentazione del prodotto dati vengono archiviate in questa tabella. DataProductId, DocumentationId
Proprietario del prodotto dati Le informazioni sul proprietario del prodotto dati vengono archiviate in questa tabella. DataProductId, DataProductOwnerId
Stato prodotto dati Informazioni correlate allo stato del prodotto dati (ad esempio pubblicate o bozza) archiviate in questa tabella. DataProductStatusId
Condizioni per l'utilizzo del prodotto dati Le informazioni sui termini di utilizzo dei prodotti dati vengono archiviate in questa tabella. DataProductId, TermOfUsedId, DataAssetId
Tipo di prodotto dati Le informazioni sui tipi di prodotto dati, ovvero master, riferimento, operativo e così via, vengono archiviate in questa tabella. DataProductTypeId
Frequenza di aggiornamento del prodotto dati Le informazioni sulla frequenza di aggiornamento dei dati di questo prodotto dati vengono archiviate in questa tabella. UpdateFrequencyId
Esecuzione della regola asset di qualità dei dati Risultati dell'analisi della qualità dei dati archiviati in questa tabella RuleId (FK), DataAssetId (FK), JobExecutionId (FK)
Esecuzione del processo data quality Lo stato di esecuzione del processo di qualità dei dati viene archiviato in questa tabella. JobExecutionId (UniqueId)
Regola di qualità dei dati Le informazioni sulle regole di qualità dei dati vengono archiviate in questa tabella. RuleId (UniqueId), RuleTypeId (FK), BusinessDomainId (FK), DataProductId (FK), DataAssetId (FK), JobTypeDisplayName (FK), RuleOriginDisplayName (FK), RuleTargetObjectType (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Esecuzione della colonna della regola data quality In questa tabella vengono archiviate informazioni sulle regole di qualità dei dati passate e non valide, sul punteggio di qualità dei dati a livello di colonne e sui dettagli relativi all'esecuzione del processo di qualità dei dati. RuleId (FK), DataAssetId (FK), ColumnId (FK), JobExecutionId (FK)
Tipo di regola data quality Il tipo di regola di qualità dei dati e le dimensioni associate vengono archiviati in questa tabella. RuleTypeId (UniqueId), DimensionDisplayName (FK)
Richiesta di sottoscrizione dati Informazioni sui sottoscrittori di dati, i criteri applicati, lo stato della richiesta di sottoscrizione e altre informazioni rilevanti archiviate in questa tabella. SubscriberRequestId (UniqueId), SubscriberIdentityTypeDisplayName (FK), RequestorIdentityTypeDisplayName (FK), RequestorStatusDisplayName (FK)
Termine glossario Le informazioni sul termine del glossario, la descrizione e lo stato complessivo del termine del glossario vengono archiviate in questa tabella. GlossaryTermId (UniqueId), ParentGlossaryTermId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK)
Assegnazione del dominio business del termine glossario Le informazioni sull'assegnazione e sullo stato del dominio di governance del termine glossario vengono archiviate in questa tabella. GlossaryTermId (FK), BusinessDomainId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Assegnazione di prodotti per i dati del termine glossario In questa tabella vengono archiviate informazioni sull'assegnazione di dati relativi ai termini glossari. GlossaryTermId (FK), DataProductId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Responsabile approvazione set di criteri Il set di criteri e le informazioni sull'responsabile approvazione vengono archiviate in questa tabella. SubscriberRequestId (FK), AccessPolicySetId (FK), ApproverUserId (FK)
Relazione Le informazioni sul tipo di origine e sulle informazioni di destinazione vengono archiviate in questa tabella. AccountId, SourceId, TargetId

Sottoscrivere i metadati del catalogo di Microsoft Purview a Fabric OneLake

È possibile sottoscrivere i metadati di governance dei dati di Microsoft Purview per l'analisi e derivare informazioni dettagliate seguendo questa procedura:

  1. Selezionare Impostazioni nel riquadro sinistro, selezionare Unified Catalog e quindi le integrazioni della soluzione.

    Screenshot che mostra come spostarsi nella pagina della sottoscrizione.

  2. Selezionare Modifica.

  3. Aggiungere il tipo di archiviazione e abilitare l'installazione.

  4. Add Location URL (esempio: https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata)

    • Selezionare Proprietà per copiare l'URL.

Screenshot che mostra come configurare l'URL dell'infrastruttura 1.

  • Copiare l'URL dalla pagina Proprietà .

Screenshot che mostra come configurare l'URL dell'infrastruttura 2.

  1. Aggiungere il nome della cartella alla fine dell'URL, ad esempio: /DEH (vedere lo screenshot)

  2. Concedere l'accesso dei collaboratori a Microsoft Purview Manage Service Identity (MSI) all'area di lavoro dell'infrastruttura.

  3. Testare la connessione.

    Screenshot che mostra come configurare la connessione alla sottoscrizione.

  4. Selezionare Salva per salvare la configurazione per pubblicare i metadati di Purview nell'area di lavoro OneLake.

Creare un modello semantico in OneLake

Un modello semantico nel contesto di dati e analisi si riferisce a una rappresentazione strutturata dei dati che definisce il significato, le relazioni e le regole all'interno di un dominio specifico. Offre un livello di astrazione che consente agli utenti di comprendere e interagire con dati complessi rendendoli più intuitivi e accessibili, soprattutto nel contesto delle piattaforme di business intelligence e analisi. È sempre necessario un modello semantico prima di compilare qualsiasi report. All'interno del warehouse, un utente può aggiungere oggetti warehouse, ovvero tabelle o viste, al modello semantico di Power BI predefinito. Possono anche aggiungere altre proprietà di modellazione semantica, ad esempio gerarchie e descrizioni. Queste proprietà vengono quindi usate per creare le tabelle del modello semantico di Power BI. Gli utenti possono anche rimuovere oggetti dal modello semantico di Power BI predefinito.

Per creare un modello semantico dal modello di dominio dei metadati di Governance dei dati di Microsoft Purview:

  1. Aprire Lakehouse nell'area di lavoro Fabric.

  2. Pubblicare i file di modello dei domini in tabelle delta

    1. Selezionare il pulsante con i puntini di sospensione (...)
    2. Selezionare **Carica in tabelle > Nuova tabella
    3. Nuovo nome di tabella prepopolato
    4. Selezionare Tipo di file parquet

    Screenshot che mostra come eseguire manualmente la pubblicazione in una tabella differenziale da parquet.

  3. È anche possibile usare il collegamento per creare collegamenti al modello di dominio da OneLake e all'interno di OneLake

    1. Selezionare il pulsante con i puntini di sospensione (...) delle tabelle
    2. Selezionare Nuovo collegamento e selezionare Microsoft OneLake nella pagina Nuove origini collegamento.
    3. Selezionare la tabella del modello di domini da collegamento

    Screenshot che mostra come pubblicare in una tabella differenziale tramite collegamento.

Dopo aver pubblicato tutti i file in tabelle delta manualmente o tramite collegamento, è possibile aggiungere le tabelle delta al modello semantico.After you publish all files to delta tables either either manually or via shortcut, you're able to add the delta tables to semantic model.

  1. Passare alla pagina dell'endpoint di analisi SQL dalla pagina Lakehouse.
  2. Selezionare Report nell'angolo superiore sinistro della pagina dell'endpoint di analisi SQL .
  3. Selezionare Gestisci modello semantico predefinito.
  4. Selezionare le tabelle da dbo > Tables da aggiungere al modello semantico per la creazione di report.

Screenshot che mostra come aggiungere manualmente una tabella al modello semantico.

Per aggiungere oggetti come tabelle o viste al modello semantico di Power BI predefinito, selezionare Aggiorna automaticamente il modello semantico.

Screenshot che mostra il modello semantico di analisi self-service.

Nota

È necessario disegnare manualmente la relazione del modello semantico usando le chiavi di relazione.

Sottoscrivere i metadati del catalogo Microsoft Purview per l'archiviazione AdlsG2

È possibile sottoscrivere i metadati di governance dei dati di Microsoft Purview per pubblicare e archiviare nell'archiviazione AdlsG2 per l'analisi e derivare informazioni dettagliate seguendo questa procedura:

  1. Selezionare Impostazioni nel riquadro sinistro, selezionare Unified Catalog e quindi le integrazioni della soluzione.

    Screenshot che mostra come spostarsi nella pagina della sottoscrizione per adlsg2.

  2. Selezionare Modifica.

  3. Selezionare Tipo di archiviazione. e Abilitato l'installazione.

  4. Aggiungere l'URL del percorso, che deve essere percorso AdlsG2 + "/(nome contenitore)"

    1. Passare a portal.azure.com
    2. Selezionare l'archiviazione adlsg2 (Home > adlsg2)
    3. Passare a Impostazioni>Endpoint e selezionare Endpoint primario dell'archiviazione data lake.
  5. Concedere l'accesso collaboratore ai dati dei BLOB di archiviazione a Microsoft Purview Manage Service Identity (MSI) al contenitore AdlsG2

  6. Testare la connessione.

    Esplorare il modello

  7. Selezionare la scheda Salva per salvare la configurazione per pubblicare il modello di dominio nell'archiviazione adlsg2.

Esaminare il modello e i dati pubblicati

  1. Apri portal.azure.com

  2. Selezionare l'archiviazione adlsg2

  3. selezionare il contenitore aggiunto con l'endpoint adlsg2 in Purview

  4. Esplorare l'elenco dei file parquet delta pubblicati nel contenitore.

  5. Esplorare il modello pubblicato e i metadati (vedere le immagini seguenti).

    Screenshot che mostra come configurare la connessione alla sottoscrizione nel contenitore adlsg2.

    Esplorare i file del modello

Creare un report di Power BI

Power BI è integrato in modo nativo nell'intera esperienza di Fabric. Questa integrazione nativa include una modalità univoca, denominata DirectLake, per l'accesso ai dati da Lakehouse per offrire l'esperienza di query e creazione di report più efficiente. DirectLake è una nuova rivoluzionaria funzionalità che consente di analizzare modelli semantici di grandi dimensioni in Power BI. Con DirectLake si caricano file in formato parquet direttamente da un data lake senza dover eseguire query su un data warehouse o un endpoint lakehouse e senza dover importare o duplicare dati in un modello semantico di Power BI. DirectLake è un percorso rapido per caricare i dati dal data lake direttamente nel motore di Power BI, pronto per l'analisi.

Nella modalità DirectQuery tradizionale, il motore di Power BI esegue direttamente query sui dati dall'origine per ogni esecuzione di query e le prestazioni della query dipendono dalla velocità di recupero dei dati. DirectQuery elimina la necessità di copiare i dati, assicurando che eventuali modifiche nell'origine vengano immediatamente riflesse nei risultati della query.

Per altri dettagli , seguire le linee guida: come creare un report di Power BI in Microsoft Fabric.

Importante

  • Il ciclo di aggiornamento predefinito è ogni 24 ore.
  • L'identità del servizio gestito di Purview richiede l'accesso come collaboratore all'area di lavoro di Fabric se si sottoscrivono i metadati di Microsoft Purview per la pubblicazione nell'infrastruttura.
  • L'identità del servizio gestito di Purview richiede l'accesso collaboratore ai dati dei BLOB di archiviazione al Azure Data Lake Storage Gen2 se si sta eseguendo la pubblicazione dei metadati purview nel contenitore adlsg2.

Nota

  • La pianificazione del processo di aggiornamento dei dati non è ancora supportata.
  • La rete virtuale non è ancora supportata.