Procedure consigliate per la governance dei dati e dell'intelligenza artificiale

Articolo
01/23/2025

Questo articolo illustra le procedure consigliate per la governance dei dati e dell'IA, organizzate in base ai principi architetturali elencati nelle sezioni seguenti.

1. Unificare la gestione dei dati e dell'IA

Stabilire un processo di governance dei dati e dell'intelligenza artificiale

La governance dei dati e dell'intelligenza artificiale è la gestione della disponibilità, dell'usabilità, dell'integrità e della sicurezza degli asset di dati e intelligenza artificiale di un'organizzazione. Grazie al rafforzamento della governance dei dati e dell'intelligenza artificiale, le organizzazioni possono garantire la qualità degli asset fondamentali per l'analisi e il processo decisionale accurati, contribuire a identificare nuove opportunità, migliorare la soddisfazione dei clienti e infine aumentare i ricavi. Aiuta le organizzazioni a rispettare le normative sulla privacy dei dati e dell'IA e a migliorare le misure di sicurezza, riducendo il rischio di violazioni e sanzioni dei dati. La governance efficace dei dati e dell'IA elimina anche le ridondanze e semplifica la gestione dei dati, con conseguente risparmio sui costi e maggiore efficienza operativa.

Un'organizzazione potrebbe voler scegliere il modello di governance più adatto alle proprie esigenze:

Nel modello di governance centralizzato, gli amministratori della governance sono proprietari del metastore e possono assumere la proprietà di qualsiasi oggetto e concedere e revocare le autorizzazioni.
In un modello di governance distribuito, il catalogo o un set di cataloghi è il dominio dei dati. Il proprietario di tale catalogo può creare e possedere tutti gli asset e gestire la governance all'interno di tale dominio. I proprietari di un determinato dominio possono operare indipendentemente dai proprietari di altri domini.

La soluzione di governance dei dati e dell'intelligenza artificiale Unity Catalog è integrata nella piattaforma Data Intelligence di Databricks. Supporta entrambi i modelli di governance e consente di gestire facilmente dati strutturati e non strutturati, modelli di Machine Learning, notebook, dashboard e file in qualsiasi piattaforma o cloud. Le migliori pratiche del Catalogo Unity aiutano a implementare la governance dei dati e dell'intelligenza artificiale.

Gestire i metadati per tutti i dati e gli asset di intelligenza artificiale in un'unica posizione

I vantaggi della gestione dei metadati per tutti gli asset in un'unica posizione sono simili ai vantaggi della gestione di una singola origine di verità per tutti i dati. Questi includono ridondanza dei dati ridotta, maggiore integrità dei dati e eliminazione di malintesi dovuti a definizioni o tassonomie diverse. È anche più semplice implementare criteri, standard e regole globali con una singola origine.

Come buona pratica, esegui il lakehouse in un singolo account con un Unity Catalog. Unity Catalog può gestire dati e volumi (file arbitrari), nonché asset di intelligenza artificiale come funzionalità e modelli di intelligenza artificiale. Il contenitore di primo livello degli oggetti nel Catalogo Unity è un metastore . Archivia gli asset di dati, ad esempio tabelle e viste, e le autorizzazioni che ne regolano l'accesso. Usare un singolo metastore per area cloud e non accedere ai metastore tra aree per evitare problemi di latenza.

Il metastore fornisce uno spazio dei nomi a tre livelli per strutturare i dati, i volumi e gli asset di intelligenza artificiale.

Databricks consiglia di usare i cataloghi per fornire la segregazione nell'architettura delle informazioni dell'organizzazione. Spesso questo significa che i cataloghi possono corrispondere all'ambito dell'ambiente di sviluppo software, al team o alla business unit.

Tenere traccia dei dati e della derivazione dell'intelligenza artificiale per favorire la visibilità dei dati

La derivazione dei dati è uno strumento potente che consente ai leader dei dati di ottenere maggiore visibilità e comprensione dei dati nelle organizzazioni. La derivazione dei dati descrive la trasformazione e il perfezionamento dei dati dall'origine alle informazioni dettagliate. Include l'acquisizione di tutti i metadati e gli eventi pertinenti associati ai dati durante il ciclo di vita, inclusa l'origine del set di dati, gli altri set di dati usati per crearli, chi lo ha creato e quando, quali trasformazioni sono state eseguite, quali altri set di dati lo usano e molti altri eventi e attributi.

Inoltre, quando si esegue il training di un modello in una tabella nel catalogo unity, è possibile tenere traccia della derivazione del modello ai set di dati upstream su cui è stato eseguito il training e la valutazione.

Il lineage può essere utilizzato per molti casi d'uso correlati ai dati.

Conformità e prontezza per gli audit: La tracciabilità dei dati consente alle organizzazioni di tracciare l'origine di tabelle e campi. Questo è importante per soddisfare i requisiti di molte normative di conformità, ad esempio il Regolamento generale sulla protezione dei dati (GDPR), California Consumer Privacy Act (CCPA), Health Insurance Portability and Accountability Act (HIPAA), Il Comitato di Basilea sulla supervisione bancaria (BCBS) 239 e Sarbanes-Oxley Act (SOX).
'analisi dell'impatto/gestione delle modifiche: i dati vengono sottoposti a più trasformazioni dall'origine alla tabella finale pronta per l'azienda. Comprendere il potenziale impatto delle modifiche ai dati sugli utenti downstream diventa importante dal punto di vista della gestione dei rischi. Questo impatto può essere determinato facilmente usando la derivazione dei dati acquisita dal catalogo unity.
controllo qualità dei dati: informazioni sulla provenienza di un set di dati e sulle trasformazioni applicate forniscono un contesto molto migliore per data scientist e analisti, consentendo loro di ottenere informazioni più accurate e migliori.
Debug e diagnostica: in caso di risultato imprevisto, la derivazione dei dati consente ai team di dati di eseguire l'analisi della causa radice tracciando l'errore nella relativa origine. In questo modo si riduce notevolmente il tempo di risoluzione dei problemi.

Il Catalogo Unity acquisisce il runtime provenienza dei dati tra query in esecuzione in Azure Databricks e anche provenienza del modello. La derivazione è supportata per tutte le lingue e viene acquisita fino al livello di colonna. I dati di derivazione includono notebook, processi e dashboard correlati alla query. La derivazione può essere visualizzata quasi in tempo reale nel Catalog Explorer ed è accessibile usando l'API REST di derivazione dati di Databricks .

Aggiungere descrizioni coerenti ai metadati

Le descrizioni forniscono un contesto essenziale per i dati. Consentono agli utenti di comprendere lo scopo e il contenuto delle tabelle e delle colonne di dati. Questa chiarezza consente di individuare, identificare e filtrare più facilmente i dati necessari, che è fondamentale per l'analisi dei dati e il processo decisionale efficaci. Le descrizioni possono includere informazioni sulla riservatezza dei dati e sulla conformità. Ciò consente alle organizzazioni di soddisfare i requisiti legali e normativi per la privacy e la sicurezza dei dati. Le descrizioni devono includere anche informazioni sull'origine, l'accuratezza e la pertinenza dei dati. In questo modo si garantisce l'integrità dei dati e si promuove una migliore collaborazione tra i team.

Due funzionalità principali del catalogo Unity supportano la descrizione di tabelle e colonne. Il Catalogo Unity consente di

aggiungere commenti a tabelle e colonne sotto forma di commenti.

È anche possibile aggiungere un commento generato dall'intelligenza artificiale per qualsiasi colonna di tabella o tabella gestita da Unity Catalog per velocizzare il processo. Tuttavia, i modelli di intelligenza artificiale non sono sempre accurati e i commenti devono essere esaminati prima del salvataggio. Databricks consiglia vivamente la revisione umana dei commenti generati dall'IA per verificare la presenza di imprecisioni.
aggiungi tag a qualsiasi elemento sicuro in Unity Catalog. I tag sono attributi con chiavi e valori facoltativi che è possibile applicare a oggetti a protezione diretta diversi in Unity Catalog. L'assegnazione di tag è utile per organizzare e classificare diversi oggetti proteggibili all'interno di un metastore. L'uso dei tag semplifica anche la ricerca e l'individuazione degli asset di dati.

Consentire una facile ricerca dei dati per i consumatori di dati

L'individuazione dei dati semplice consente ai data scientist, agli analisti dei dati e ai data engineer di individuare e fare riferimento rapidamente ai dati pertinenti e accelerare il time-to-value.

Databricks Catalog Explorer fornisce un'interfaccia utente per esplorare e gestire dati, schemi (database), tabelle e autorizzazioni, proprietari di dati, posizioni esterne e credenziali. Inoltre, è possibile usare la scheda Insights in Esplora cataloghi per visualizzare le query più frequenti e gli utenti di qualsiasi tabella registrata in Unity Catalog.

Gestire gli asset di intelligenza artificiale insieme ai dati

La relazione tra la governance dei dati e l'intelligenza artificiale (IA) è diventata fondamentale per il successo. Il modo in cui le organizzazioni gestiscono, proteggono e usano i dati influisce direttamente sui risultati e sulle considerazioni delle implementazioni di intelligenza artificiale: non è possibile avere l'intelligenza artificiale senza dati di qualità e non è possibile avere dati di qualità senza governance dei dati.

La governance dei dati e dell'IA migliora le prestazioni di intelligenza artificiale garantendo un accesso facile ai dati di alta qualità e aggiornati, con conseguente maggiore accuratezza e migliore processo decisionale. La suddivisione dei silo aumenta l'efficienza consentendo una migliore collaborazione e semplificando i flussi di lavoro, con conseguente aumento della produttività e riduzione dei costi.

Una maggiore sicurezza dei dati è un altro vantaggio, poiché un approccio di governance unificato stabilisce procedure di gestione dei dati coerenti, riducendo le vulnerabilità e migliorando la capacità di un'organizzazione di proteggere le informazioni riservate. La conformità alle normative sulla privacy dei dati è più semplice da gestire quando i dati e la governance dell'IA sono integrati, in quanto la gestione dei dati e i processi di IA sono allineati ai requisiti normativi.

In generale, un approccio di governance unificato promuove la fiducia tra gli stakeholder e garantisce la trasparenza nei processi decisionali dell'IA stabilendo criteri e procedure chiare sia per i dati che per l'IA.

In Databricks Data Intelligence Platform, Unity Catalog è il componente centrale per gestire sia i dati che gli asset di intelligenza artificiale:

funzionalità nel catalogo Unity

Nelle aree di lavoro abilitate per Unity Catalog i data scientist possono creare tabelle delle funzionalità in Unity Catalog. Queste tabelle delle funzionalità sono tabelle Delta o DLT gestite da Unity Catalog.
Modelli nel Catalogo Unity

I modelli in Unity Catalog estendono i vantaggi di Unity Catalog ai modelli di Machine Learning, inclusi il controllo di accesso centralizzato, il controllo, la derivazione e l'individuazione dei modelli nelle aree di lavoro. Le funzionalità principali dei modelli nel catalogo Unity includono governance per modelli, derivazione cronologica dei modelli, controllo delle versioni dei modelli e distribuzione di modelli tramite alias.

2. Unificare i dati e la sicurezza dell'intelligenza artificiale

Centralizzare il controllo di accesso per tutti i dati e gli asset di intelligenza artificiale

La centralizzazione del controllo di accesso per tutti gli asset di dati è importante perché semplifica la sicurezza e la governance dei dati e degli asset di intelligenza artificiale fornendo una posizione centrale per amministrare e controllare l'accesso a tali asset. Questo approccio consente di gestire l'accesso ai dati e agli oggetti di intelligenza artificiale in modo più efficiente, assicurando che vengano applicati i requisiti operativi relativi alla separazione dei compiti, che è fondamentale per la conformità alle normative e la prevenzione dei rischi.

Databricks Data Intelligence Platform fornisce metodi di controllo di accesso ai dati che descrivono quali gruppi o utenti possono accedere ai dati. Si tratta di istruzioni di criteri che possono essere estremamente granulari e specifiche, fino alla definizione di ogni record a cui ogni singolo utente ha accesso. Oppure possono essere molto espressivi e ampi, ad esempio tutti gli utenti finanziari possono visualizzare tutti i dati finanziari.

Il Unity Catalog centralizza i controlli di accesso per tutti i oggetti securizzabili supportati come tabelle, file, modelli e molti altri. Ogni oggetto a protezione diretta in Unity Catalog ha un proprietario. Il proprietario di un oggetto ha tutti i privilegi sull'oggetto, nonché la possibilità di concedere privilegi sull'oggetto di sicurezza ad altre entità. Il catalogo unity consente di gestire i privilegie di configurare di controllo di accesso usando istruzioni DDL SQL.

Il Catalogo Unity usa i filtri di riga e le maschere di colonna per il controllo di accesso con granularità fine. I filtri di riga consentono di applicare un filtro a una tabella in modo che le query successive restituisca solo righe per le quali il predicato di filtro restituisce true. Le maschere di colonna consentono di applicare una funzione di maschera a una colonna della tabella. La funzione di mascheramento viene valutata in fase di esecuzione della query, sostituendo ogni riferimento alla colonna di destinazione con i risultati della funzione di mascheramento.

Per altre informazioni, vedere Sicurezza, conformità e privacy - Gestire l'identità e l'accesso usando privilegi minimi.

Configurare la registrazione di controllo

La registrazione di controllo è importante perché fornisce un account dettagliato delle attività di sistema (azioni utente, modifiche alle impostazioni e così via) che potrebbero influire sull'integrità del sistema. Anche se i log di sistema standard sono progettati per aiutare gli sviluppatori a risolvere i problemi, i log di controllo forniscono un record cronologico di attività per la conformità e altri scopi di applicazione dei criteri aziendali. La gestione di log di controllo affidabili consente di identificare e garantire la preparazione in caso di minacce, violazioni, frodi e altri problemi di sistema.

Databricks fornisce l'accesso ai log di controllo delle attività eseguite dagli utenti di Databricks, consentendo all'organizzazione di monitorare i modelli di utilizzo dettagliati di Databricks. Esistono due tipi di log: log di controllo con eventi a livello di area di lavoro e log di controllo con eventi a livello di account.

È anche possibile abilitare i log di controllo dettagliati, che sono log di controllo aggiuntivi registrati ogni volta che viene eseguita una query o un comando nell'area di lavoro.

Controllare gli eventi della piattaforma dati

La registrazione di controllo è importante perché fornisce un account dettagliato delle attività di sistema. La Data Intelligence Platform include registri di controllo per l'accesso ai metadati (e quindi ai dati) e per la condivisione dei dati.

Il Catalogo Unity acquisisce un log di controllo delle azioni effettuate sul metastore. In questo modo gli amministratori possono accedere a dettagli granulari su chi ha eseguito l'accesso a un determinato set di dati e alle azioni eseguite.
Per la condivisione sicura con Delta Sharing, Azure Databricks fornisce log di controllo per monitorare gli eventi di Delta Sharing, tra cui:
- Quando un utente crea, modifica, aggiorna o elimina una condivisione o un destinatario.
- Quando un destinatario accede a un collegamento di attivazione e scarica le credenziali.
- Quando un destinatario accede a condivisioni o dati in tabelle condivise.
- Quando la credenziale di un destinatario viene rigenerata o scade.

3. Stabilire gli standard di qualità dei dati

Databricks Data Intelligence Platform offre una gestione affidabile della qualità dei dati con controlli qualitativi, test, monitoraggio e applicazione predefiniti per garantire dati accurati e utili per carichi di lavoro di business intelligence downstream, analisi e Machine Learning.

I dettagli di implementazione possono essere visualizzati in Affidabilità - Gestire la qualità dei dati.

Definire standard di qualità dei dati chiari

La definizione di standard di qualità dei dati chiari e interattivi è fondamentale, perché consente di garantire che i dati usati per l'analisi, la creazione di report e il processo decisionale siano affidabili e affidabili. La documentazione di questi standard consente di garantire che vengano mantenuti. Gli standard di qualità dei dati devono essere basati sulle esigenze specifiche dell'azienda e devono soddisfare dimensioni della qualità dei dati, ad esempio accuratezza, completezza, coerenza, tempestività e affidabilità:

Accuratezza: assicurarsi che i dati riflettano in modo accurato i valori reali.
Completezza: tutti i dati necessari devono essere acquisiti e non devono essere mancanti dati critici.
Coerenza: i dati in tutti i sistemi devono essere coerenti e non contraddicono altri dati.
Tempestività: i dati devono essere aggiornati e disponibili in modo tempestivo.
Affidabilità: i dati devono essere originati ed elaborati in modo da garantire la sua affidabilità.

Usare gli strumenti data quality per la profilatura, la pulizia, la convalida e il monitoraggio dei dati

Sfruttare gli strumenti data quality per la profilatura, la pulizia, la convalida e il monitoraggio dei dati. Questi strumenti consentono di automatizzare i processi di rilevamento e correzione dei problemi di qualità dei dati, il che è fondamentale per scalare le iniziative di qualità dei dati in grandi set di dati tipici nei data lake.

Per i team che usano DLT, è possibile usare le aspettative per definire i vincoli di qualità dei dati sul contenuto di un set di dati. Le aspettative consentono di garantire che i dati in arrivo nelle tabelle soddisfino i requisiti di qualità dei dati e forniscano informazioni dettagliate sulla qualità dei dati per ogni aggiornamento della pipeline.

Implementare e applicare definizioni e formati di dati standardizzati

I formati e le definizioni di dati standardizzati consentono di ottenere una rappresentazione coerente dei dati in tutti i sistemi per facilitare l'integrazione e l'analisi dei dati, ridurre i costi e migliorare il processo decisionale migliorando la comunicazione e la collaborazione tra team e reparti. Consente inoltre di fornire una struttura per la creazione e la gestione della qualità dei dati.

Sviluppare e applicare un dizionario dati standard che include definizioni, formati e valori accettabili per tutti gli elementi di dati usati nell'organizzazione.

Usare convenzioni di denominazione coerenti, formati di data e unità di misura in tutti i database e le applicazioni per evitare discrepanze e confusione.

Condividi tramite