Procedura: Identificazione delle righe di dati simili tramite la trasformazione Raggruppamento fuzzy
È possibile aggiungere e configurare una trasformazione Raggruppamento fuzzy solo se il pacchetto include almeno un'attività Flusso di dati e un'origine.
Per implementare una trasformazione Raggruppamento fuzzy in un flusso di dati
In Business Intelligence Development Studio aprire il progetto di Integration Services che contiene il pacchetto desiderato.
In Esplora soluzioni fare doppio clic sul pacchetto per aprirlo.
Fare clic sulla scheda Flusso di dati e quindi, dalla casella degli strumenti, trascinare la trasformazione Raggruppamento fuzzy sull'area di progettazione.
Connettere la trasformazione Raggruppamento fuzzy al flusso di dati trascinando il connettore, la freccia verde o la freccia rossa, dall'origine dei dati o da una trasformazione precedente alla trasformazione Raggruppamento fuzzy.
Fare doppio clic sulla trasformazione Raggruppamento fuzzy.
Nella scheda Gestione connessione della finestra di dialogo Editor trasformazione Raggruppamento fuzzy selezionare una gestione connessione OLE Db che consenta la connessione a un database di SQL Server.
[!NOTA]
La trasformazione richiede una connessione a un database di SQL Server per creare tabelle e indici temporanei.
Fare clic sulla scheda Colonne e, nell'elenco Colonne di input disponibili, selezionare le caselle di controllo corrispondenti alle colonne di input da utilizzare per identificare le righe simili nel set di dati.
Per identificare le colonne di input da passare direttamente all'output della trasformazione, selezionare le caselle di controllo nella colonna Pass-through. Le colonne pass-through non vengono coinvolte nel processo di identificazione delle righe duplicate.
[!NOTA]
Le colonne di input utilizzate per il raggruppamento vengono automaticamente selezionate come colonne pass-through e non possono essere deselezionate mentre sono in uso per il raggruppamento.
Facoltativamente, aggiornare i nomi delle colonne di output nella colonna Alias di output.
Facoltativamente, aggiornare i nomi delle colonne elaborate nella colonna Alias di output gruppo.
[!NOTA]
I nomi predefiniti delle colonne vengono ottenuti aggiungendo il suffisso "_clean" ai nomi delle colonne di input.
Facoltativamente, digitare nella colonna Tipo di corrispondenza il tipo di corrispondenza da utilizzare.
[!NOTA]
È necessario utilizzare la corrispondenza fuzzy almeno per una colonna.
Specificare le colonne con livello di somiglianza minimo nella colonna Somiglianza minima. Il valore deve essere compreso tra 0 e 1. Più il valore è vicino a 1, più i valori nelle colonne di input dovranno essere simili per formare un gruppo. Una somiglianza minima pari a 1 indica una corrispondenza esatta.
Facoltativamente, aggiornare i nomi delle colonne con somiglianza nella colonna Alias di output somiglianza.
Per specificare la modalità di gestione dei numeri nei valori dei dati, aggiornare i valori nella colonna Numerali.
Per specificare la modalità con cui la trasformazione deve confrontare i dati stringa contenuti in una colonna, modificare la selezione predefinita delle opzioni di confronto nella colonna Flag di confronto.
Fare clic sulla scheda Avanzate per modificare i nomi delle colonne che la trasformazione aggiunge all'output per l'identificatore di riga univoco (_key_in), l'identificatore di riga duplicato (_key_out) e il valore di somiglianza (_score).
Facoltativamente, regolare la soglia di somiglianza spostando il dispositivo di scorrimento.
Facoltativamente, deselezionare le caselle di controllo in Delimitatori token per ignorare i delimitatori presenti nei dati.
Fare clic su OK.
Per salvare il pacchetto aggiornato, scegliere Salva elementi selezionati dal menu File.