Condividi tramite


Data Cleansing

La pulizia dei dati è il processo di analisi della qualità dei dati in un'origine dati, con l'approvazione o il rifiuto manuale dei suggerimenti del sistema e la conseguente modifica dei dati. La pulizia dei dati in Data Quality Services (DQS) include un processo assistito da computer che analizza il modo in cui i dati sono conformi alle conoscenze in un knowledge base e un processo interattivo che consente all'amministratore dei dati di esaminare e modificare i risultati del processo assistito dal computer per garantire che la pulizia dei dati sia esattamente come si desidera eseguire.

L'amministratore dei dati può anche eseguire la pulizia dei dati durante il processo di creazione dei pacchetti di Integration Services. In questo caso, l'amministratore dei dati userà il componente DQS Cleansing in Integration Services che esegue automaticamente la pulizia dei dati usando un knowledge base esistente. Per altre informazioni, vedere Trasformazione DQS Cleansing.

La funzionalità di pulizia dei dati in DQS offre i vantaggi seguenti:

  • Identifica dati incompleti o errati nell'origine dati (file di Excel o database SQL Server), quindi effettua le correzioni o avvisa in caso di dati non validi.

  • Fornisce un processo a due passaggi per pulire i dati: assistito da computer e interattivo. Nel processo assistito da computer vengono utilizzate le informazioni di una Knowledge Base DQS per elaborare automaticamente i dati e vengono suggerite sostituzioni/correzioni. Nel passaggio interattivo successivo l'amministratore dei dati può approvare, rifiutare o modificare le modifiche proposte da DQS nel corso della pulizia assistita da computer.

  • Standardizza e arricchisce dati dei clienti tramite valori e regole di dominio e dati di riferimento. Ad esempio, standardizzare l'utilizzo dei termini modificando "St." in "Street", arricchire i dati inserendo elementi mancanti modificando "1 Microsoft way Redmond 98006" in "1 Microsoft Way, Redmond, WA 98006".

  • Fornisce all'utente un'interfaccia simile a una procedura guidata semplice, intuitiva e coerente per spostarsi all'interno di dati e controllare errori in set di dati molto grandi.

Nella figura seguente viene illustrata la modalità di pulizia dei dati in DQS:

Processo di pulizia dei dati nel processo di pulizia dei

Pulizia assistita da computer

Tramite il processo di pulizia dei dati DQS la Knowledge Base viene applicata ai dati da pulire e vengono proposte modifiche ai dati. L'amministratore dei dati può accedere a ogni modifica proposta, valutando e correggendo le modifiche. Per eseguire la pulizia dei dati, l'amministratore dei dati effettua le operazioni seguenti:

  1. Creare un progetto Data Quality, selezionare una Knowledge Base rispetto alla quale analizzare e pulire i dati di origine e selezionare l'attività Pulizia . La stessa Knowledge Base può essere utilizzata per più progetti Data Quality.

  2. Specificare la tabella/vista di database o un file di Excel che contiene i dati di origine da pulire. Il database o il file di Excel può corrispondere o meno a quello utilizzato per l'individuazione delle informazioni.

    Nota

    Se si seleziona la stessa origine dati per le attività di individuazione delle informazioni e di pulizia, non si verificheranno modifiche ai dati. Si consiglia di eseguire l'individuazione delle informazioni su dati di esempio e successivamente pulire i dati di origine rispetto alle informazioni compilate durante l'attività di individuazione delle informazioni.

  3. Eseguire il mapping dei campi dati da pulire ai domini singoli/composti appropriati nella Knowledge Base. Se si esegue il mapping di un campo a un dominio composito, il mapping avviene tra il campo e il dominio composito e non i domini singoli nel dominio composito. Inoltre, la pulizia dei dati per il campo di cui è stato eseguito il mapping viene effettuata in base alle regole specificate per il dominio composito e non per i domini singoli nel dominio composito. Per ulteriori informazioni sui domini compositi, vedere DQS Knowledge Bases and Domains.

  4. Eseguire il processo di pulizia assistita da computer facendo clic su Avvia nella pagina Pulisci .

Il processo di pulizia dei dati consente di trovare la corrispondenza migliore tra un'istanza di dati e valori noti del dominio di dati. Con il processo vengono applicate le informazioni sulla qualità dei dati a tutti i dati di origine, a differenza del processo di individuazione delle informazioni che viene eseguito su una percentuale dei dati di esempio.

Il processo assistito da computer visualizza informazioni sulla qualità dei dati in Data Quality Client che verranno usate per il processo di pulizia interattiva. Oltre al rispetto delle regole relative agli errori di sintassi, in DQS vengono utilizzati anche dati di riferimento e algoritmi avanzati per la classificazione dei dati in base a un livello di confidenza. Il livello di confidenza indica il grado di certezza in DQS in relazione alla correzione o al suggerimento. Il livello di confidenza è basato sui seguenti valori soglia:

Qualsiasi valore con un livello di confidenza inferiore al valore soglia di suggerimento automatico viene lasciato invariato da DQS a meno che l'amministratore dei dati specifichi una modifica.

Pulizia interattiva

In base al processo di pulizia assistito da computer, all'amministratore dei dati vengono fornite le informazioni necessarie per prendere una decisione sulla modifica dei dati. DQS consente di suddividere i dati in categorie nelle cinque schede seguenti:

  • Suggeriti: valori per i quali sono stati trovati suggerimenti con un livello di confidenza superiore al valore soglia di suggerimento automatico ma inferiore al valore soglia di correzione automatica . È necessario analizzare questi valori e approvarli o rifiutarli nel modo appropriato.

  • Nuovo: i valori validi per i quali DQS non dispone di informazioni sufficienti (suggerimento) e pertanto non possono essere mappati a qualsiasi altra scheda. Inoltre, questa scheda contiene anche valori con livello di attendibilità inferiore al valore soglia di suggerimento automatico, ma abbastanza elevato da contrassegnare come valido.

  • Non validi: valori contrassegnati come non validi nel dominio della Knowledge Base o valori non conformi a una regola di dominio o ai dati di riferimento. Questa scheda conterrà anche valori rifiutati dall'utente nelle altre quattro schede durante il processo di pulizia interattiva.

  • Con correzione: valori corretti da DQS durante il processo automatico di pulizia, nel caso in cui sia stata trovata una correzione per il valore con un livello di confidenza superiore al valore soglia di correzione automatica . Questa scheda conterrà anche valori per i quali l'utente ha specificato un valore corretto nella colonna Correggi in durante la pulizia interattiva e che ha quindi approvato facendo clic sul pulsante di opzione nella colonna Approva in una delle altre quattro schede.

  • Corretti: valori trovati corretti. Ad esempio, un valore corrispondente a un valore di dominio. Se richiesto, è possibile eseguire l'override della pulizia DQS rifiutando i valori in questa scheda o specificando una parola alternativa nella colonna Correggi in e facendo clic quindi sul pulsante di opzione nella colonna Accetta . Questa scheda conterrà anche valori approvati dall'utente durante la pulizia interattiva facendo clic sul pulsante di opzione nella colonna Approva nelle schede Nuovi o Non validi .

Nota

Nelle schede Suggeriti, Con correzionee Corretti viene visualizzato il valore iniziale per un dominio, se applicabile, nella colonna Correggi in rispetto al relativo valore del dominio.

L'amministratore dei dati usa Data Quality Client per visualizzare le modifiche proposte da DQS e decidere se implementarle o meno. Può verificare che i valori designati da DQS come corretti siano effettivamente corretti. Può verificare che le modifiche già apportate da DQS, con un livello di confidenza elevato, debbano essere effettivamente apportate. Può decidere se approvare le modifiche suggerite automaticamente. Infine, può rivedere i valori che non sono stati modificati, in caso desideri apportare una modifica non individuata tramite il processo assistito da computer.

Tramite DQS le modifiche effettuate dall'amministratore dei dati vengono unite ai risultati della pulizia dei dati assistita da computer. Queste modifiche vengono mantenute con il progetto, ma non vengono aggiunte alla Knowledge Base. Durante la pulizia dei dati, la Knowledge Base associata è di sola lettura.

Quando il processo di pulizia dei dati è stato completato, è possibile scegliere di esportare i dati elaborati in una nuova tabella in un database SQL Server, un file con estensione csv o un file di Excel. I dati di origine su cui viene eseguita la pulizia vengono mantenuti nello stato originale. L'amministratore dei dati può utilizzare i dati puliti separatamente per correggere i dati di origine effettivi.

Nella figura seguente viene illustrato come viene eseguita la pulizia dei dati usando l'applicazione Data Quality Client:

Pulizia dei dati in Data Quality Client

Correzione del valore iniziale

La correzione del valore iniziale si applica ai valori di dominio con sinonimi, quando l'utente desidera utilizzare uno dei sinonimi come valore iniziale, anziché altri, per rappresentare il valore in modo coerente. Ad esempio, "New York", "NYC" e "Grande mela" sono sinonimi e l'utente vuole usare "New York" come valore iniziale, anziché "NYC" e "Grande mela". DQS supporta la correzione del valore iniziale durante il processo di pulizia per consentire di standardizzare i dati. La correzione del valore iniziale viene effettuata solo se il dominio è stato opportunamente abilitato al momento della creazione. Per impostazione predefinita, tutti i domini sono abilitati per la correzione del valore iniziale a meno che sia stata deselezionata la casella di controllo Utilizza valori iniziali durante la creazione di un dominio. Per ulteriori informazioni su questa casella di controllo, vedere Set Domain Properties.

Standardizzazione dei dati puliti

È possibile scegliere se esportare i dati puliti nel formato standardizzato basato sul formato di output definito per i domini. Durante la creazione di un dominio, è possibile selezionare la formattazione che verrà applicata alla restituzione dei valori dei dati nel dominio. Per ulteriori informazioni sulla specifica dei formati di output per un dominio, vedere l'elenco Formato output in in Set Domain Properties.

Durante l'esportazione dei dati puliti nella pagina Esporta della procedura guidata di pulizia del progetto Data Quality, va specificato se si desidera che i dati puliti vengano esportati nel formato standardizzato selezionando la casella di controllo Standardizzare output . Per impostazione predefinita, i dati puliti vengono esportati nel formato standardizzato, cioè la casella di controllo è selezionata. Per altre informazioni sull'esportazione dei dati puliti, vedere Pulire i dati usando la conoscenza DQS (interna).

Descrizione dell'attività Argomento
Viene descritto come configurare valori soglia per l'attività di pulizia. Configurazione dei valori soglia per le attività di pulizia e di individuazione delle corrispondenze
Viene descritto come pulire i dati utilizzando le informazioni incorporate in DQS. Pulizia dei dati mediante le informazioni interne di DQS
Viene descritto come pulire i dati utilizzando le informazioni del servizio dati di riferimento. Pulire i dati mediante le informazioni dei dati di riferimento (esterni)
Viene descritto come pulire un dominio composito. Pulire i dati in un dominio composito

Vedere anche

Progetti Data Quality (DQS)
Corrispondenza di dati