Recorte de valores
En este artículo se describe un componente del diseñador de Azure Machine Learning.
Use el componente Recorte de valores para identificar y, opcionalmente, reemplazar los valores de los datos que estén por encima o por debajo de un umbral especificado por una media, una constante u otro valor sustituto.
Conecte el componente a un conjunto de datos que tenga los números que quiere recortar, seleccione las columnas con las que va a trabajar y establezca un umbral o un intervalo de valores y un método de reemplazo. El componente puede generar simplemente los resultados, o los valores modificados anexos al conjunto de datos original.
Configuración de Clip Values (Recorte de valores)
Antes de comenzar, identifique las columnas que desea recortar y el método que se va a usar. Se recomienda probar primero cualquier método de recorte en un pequeño subconjunto de datos.
El componente aplica los mismos criterios y el mismo método de reemplazo a todas columnas que se incluyen en la selección. Por lo tanto, asegúrese de excluir las que no desee cambiar.
Si necesita aplicar métodos de recorte o criterios diferentes a algunas columnas, debe usar una instancia de Clip Values (Recorte de valores) nueva para cada conjunto de columnas similares.
Agregue el componente Recorte de valores a la canalización y conecte al conjunto de datos que quiere modificar. Puede encontrar este componente en Transformación de datos, en la categoría Escalar y reducir.
En List of columns (Lista de columnas), use el selector de columnas para elegir las columnas a las que se aplicará Clip Values (Recorte de valores).
En Set of thresholds (Conjunto de umbrales), elija una de las siguientes opciones de la lista desplegable. Estas opciones determinan cómo se establecen los límites superior e inferior de los valores aceptables frente a los que se deben recortar.
ClipPeaks (Recortar picos): al recortar los valores por picos, solo se especifica un límite superior. Los valores mayores que el límite se reemplazan.
ClipSubpeaks (Recortar subpicos): al recortar los valores por subpicos, solo se especifica un límite inferior. Se reemplazan los valores que son menores que el límite.
ClipPeaksAndSubpeaks (Recortar picos y subpicos): al recortar los valores por picos y subpicos, puede especificar los límites superior e inferior. Los valores que se encuentran fuera de ese intervalo se reemplazan. Los valores que coinciden con los valores de límite no cambian.
En función de la selección realizada en el paso anterior, puede establecer los valores de umbral siguientes:
- Lower threshold (Umbral inferior): solo se muestra si elige ClipSubPeaks
- Upper threshold (Umbral superior): solo se muestra si elige ClipPeaks
- Umbral: solo se muestra si elige ClipPeaksAndSubPeaks
Para cada tipo de umbral, elija Constant (Constante) o Percentile (Percentil).
Si selecciona Constant (Constante), escriba el valor máximo o mínimo en el cuadro de texto. Por ejemplo, supongamos que sabe que el valor 999 se usó como valor de marcador de posición. Puede elegir Constant (Constante) para el umbral superior y escribir 999 en Constant value for upper threshold (Valor constante para umbral superior).
Si elige Percentile (Percentil), se restringen los valores de columna a un intervalo de percentiles.
Por ejemplo, supongamos que desea mantener solo los valores del intervalo de percentiles 10-80 y reemplazar todos los demás. Elija Percentile (Percentil) y escriba 10 para Percentile value for lower threshold (Valor de percentil para umbral inferior) y 80 para Percentile value for upper threshold (Valor de percentil para umbra superior).
Consulte la sección sobre percentiles para algunos ejemplos de cómo usar intervalos de percentiles.
Defina un valor sustituto.
Los números que coinciden exactamente con los límites especificados se consideran dentro del intervalo permitido de valores y, por tanto, no se reemplazan. Todos los números que se encuentran fuera del intervalo especificado se reemplazan por el valor sustituto.
- Substitute value for peaks (Valor de sustitución de picos): define el valor de sustitución en todos los valores de columna mayores que el umbral especificado.
- Substitute value for subpeaks (Valor de sustitución de subpicos): define el valor de sustitución en todos los valores de columna menores que el umbral especificado.
- Si usa la opción ClipPeaksAndSubpeaks, puede especificar valores de reemplazo independientes para los valores recortados superior e inferior.
Se admiten los siguientes valores de reemplazo:
Umbral: reemplaza los valores recortados por el valor de umbral especificado.
Mean (Promedio): reemplaza los valores recortados por el promedio de los valores de la columna. El promedio se calcula antes de que se recorten los valores.
Median (Mediana): reemplaza los valores recortados por la mediana de los valores de la columna. La mediana se calcula antes de que se recorten los valores.
Missing (Ausente): reemplaza los valores recortados por el valor que falta (vacío).
Add indicator columns (Agregar columnas indicativas): seleccione esta opción si desea generar una nueva columna que indique si la operación de recorte especificada se ha aplicado a los datos de esa fila. Esta opción es útil cuando se prueba un nuevo conjunto de valores de recorte y sustitución.
Overwrite flag (Sobrescribir marca): indica cómo desea que se generen los nuevos valores. De forma predeterminada, Clip Values (Recorte de valores) crea una nueva columna con los valores máximos recortados al umbral deseado. Los nuevos valores sobrescriben la columna original.
Para mantener la columna original y agregar una nueva columna con los valores recortados, anule la selección de esta opción.
Envíe la canalización.
Haga clic con el botón derecho en el componente Recorte de valores y seleccione Visualizar, o bien seleccione el componente, cambie a la pestaña Salidas del panel derecho y haga clic en el icono de histograma de Salidas del puerto, para revisar los valores y asegurarse de que la operación de recorte satisface sus expectativas.
Ejemplos de recorte con percentiles
Para entender cómo funciona el recorte por percentiles, considere un conjunto de 10 filas, con una instancia de cada una de los valores 1-10.
Si usa los percentiles como umbral superior, en el valor del percentil 90, el 90 % de todos los valores del conjunto de valores debe ser inferior a ese valor.
Si usa los percentiles como umbral inferior, en el valor del percentil 10, el 10 % de todos los valores del conjunto de valores debe ser inferior a ese valor.
En Set of thresholds (Conjunto de umbrales) elija ClipPeaksAndSubPeaks.
En Upper threshold (Umbral superior) elija Percentile (Percentil) y, en Percentile number (Número de percentil), escriba 90.
En Upper substitute value (Valor de sustitución superior) elija Missing Value (Valor ausente).
En Lower threshold (Umbral inferior) elija Percentile (Percentil) y, en Percentile number (Número de percentil), escriba 10.
En Lower substitute value (Valor de sustitución inferior) elija Missing Value (Valor ausente).
Anule la selección de la opción Overwrite flag (Sobrescribir marca) y seleccione la opción Add indicator columns (Agregar columnas indicativas).
Ahora pruebe la misma canalización con 60 como percentil del umbral superior y 30 como el inferior, y use el valor de umbral como valor de sustitución. En la tabla siguiente se comparan estos dos resultados:
Reemplazar por el ausente; umbral superior = 90; umbral inferior = 20
Reemplazar por el umbral; percentil superior = 60; percentil inferior = 40
Datos originales | Reemplazar por el ausente | Reemplazar por el umbral |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE TRUE |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Pasos siguientes
Vea el conjunto de componentes disponibles para Azure Machine Learning.