Identificación de filas de datos similares con la transformación Agrupación aproximada
Se aplica a: SQL Server SSIS Integration Runtime en Azure Data Factory
Para agregar y configurar una transformación Agrupación aproximada, el paquete ya debe incluir por lo menos una tarea Flujo de datos y un origen.
Para implementar la transformación Agrupación aproximada en un flujo de datos
En SQL Server Data Tools (SSDT), abra el proyecto de Integration Services que contiene el paquete que desea.
En el Explorador de soluciones, haga doble clic en el paquete para abrirlo.
Haga clic en la pestaña Flujo de datos y, a continuación, desde el cuadro de herramientas, arrastre la transformación Agrupación aproximada a la superficie de diseño.
Conecte la transformación Agrupación aproximada al flujo de datos arrastrando el conector desde el origen de datos o una transformación anterior a la transformación Agrupación aproximada.
Haga doble clic en la transformación Agrupación aproximada.
En el cuadro de diálogo Editor de transformación Agrupación aproximada , en la pestaña Administrador de conexiones , seleccione un administrador de conexiones OLE DB que se conecte con una base de datos de SQL Server .
Nota
La transformación requiere una conexión a una base de datos de SQL Server para crear tablas e índices temporales.
Haga clic en la pestaña Columnas y en la lista Columnas de entrada disponibles , active la casilla de las columnas de entrada que se deben usar para identificar filas similares en el conjunto de datos.
Active la casilla de la columna Paso a través para identificar las columnas de entrada que pasan a través de la salida de transformación. Las columnas de paso a través no se incluyen en el proceso de identificación de filas duplicadas.
Nota
Las columnas de entrada que se usan para agrupar se seleccionan automáticamente como columnas de paso a través, y no se puede eliminar su selección mientras se usan para la agrupación.
Opcionalmente, actualice los nombres de las columnas de salida en la columna Alias de salida .
También puede actualizar los nombres de las columnas limpias en la columna Alias de salida de grupo .
Nota
Los nombres predeterminados de las columnas son los nombres de las columnas de entrada con el sufijo "_clean".
Opcionalmente, actualice el tipo de coincidencia que se debe usar en la columna Tipo de coincidencia .
Nota
Al menos una columna debe usar coincidencia aproximada.
Especifique las columnas de nivel de similitud mínima en la columna Similitud mínima . El valor debe estar entre 0 y 1. Cuanto más cercano sea el valor a 1, más similares deberán ser los valores en las columnas de entrada para formar un grupo. Una similitud mínima de 1 indica una coincidencia exacta.
Opcionalmente, actualice los nombres de las columnas de similitud en la columna Alias de salida de similitud .
Para especificar el manejo de números en valores de datos, actualice los valores en la columna Números .
Para especificar la manera en que la transformación compara los datos de cadenas en una columna, modifique la selección predeterminada de las opciones de comparación en la columna Marcas de comparación .
Haga clic en la pestaña Avanzadas para modificar los nombres de las columnas que la transformación agrega a la salida para el identificador de filas únicas (_key_in), el identificador de filas duplicadas (_key_out) y el valor de similitud (_score).
Opcionalmente, ajuste el umbral de similitud moviendo la barra del control deslizante.
También puede desactivar las casillas de delimitadores de token para omitir los delimitadores en los datos.
Haga clic en OK.
Para guardar el paquete actualizado, haga clic en Guardar los elementos seleccionados, en el menú Archivo.
Consulte también
Agrupación aproximada, transformación
Transformaciones de Integration Services
Rutas de Integration Services
Tarea Flujo de datos