Dividir un conjunto de datos mediante una expresión relativa
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
En este artículo se describe cómo usar la opción División de expresiones relativas en el módulo Dividir datos de Machine Learning Studio (clásico). Esta opción resulta útil cuando necesita dividir un conjunto de datos en conjuntos de datos de entrenamiento y pruebas mediante una expresión numérica. Por ejemplo:
- Edad mayor que 40 frente a 40 o menor
- Puntuación de prueba de 60 o superior frente a menor que 60
- Valor de clasificación de 1 frente a todos los demás valores
Nota
Se aplica a: Machine Learning Studio (clásico) solo
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
Para dividir los datos, elija una sola columna numérica en los datos y defina una expresión que se usará para evaluar cada fila. La expresión relativa debe incluir el nombre de columna, el valor y un operador como mayor y menor que, igual y no igual.
Esta opción divide el conjunto de datos en dos grupos.
Para obtener información general sobre la creación de particiones de datos para experimentos de aprendizaje automático, consulte Split Data and Partition and Split (Dividir datos y dividir).
Tareas relacionadas
Otras opciones del módulo Dividir datos :
Dividir datos mediante expresiones regulares: aplique una expresión regular a una sola columna de texto y divida el conjunto de datos en función de los resultados.
Dividir conjuntos de datos del recomendador: divida los conjuntos de datos que se usan en los modelos de recomendación. El conjunto de datos debe tener tres columnas: elementos, usuarios y clasificaciones.
Uso de una expresión relativa para dividir un conjunto de datos
Agregue el módulo Split Data (Dividir datos ) al experimento en Stuio y conéctelo como entrada al conjunto de datos que desea dividir.
Para Splitting mode, seleccione Relative expression split.
En el cuadro de texto Expresión relacional , escriba una expresión que realice una operación de comparación numérica en una sola columna:
La columna contiene números de cualquier tipo de datos numéricos, incluidos los tipos de datos de fecha y hora.
La expresión puede hacer referencia a un máximo de un nombre de columna.
Utilice el carácter "y" comercial (&) para la operación AND y use el carácter de barra vertical (|) para la operación OR.
Se admiten los siguientes operadores:
<
,>
,<=
,>=
,==
,!=
.No puede agrupar las operaciones con
(
y)
.
Para obtener ideas, consulte la sección Ejemplos .
Ejecute el experimento o haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.
La expresión divide el conjunto de datos en dos conjuntos de filas: las filas con valores que cumplen la condición y todas las filas restantes.
Si necesita realizar operaciones de división adicionales, puede agregar una segunda instancia de *Dividir datos o usar el módulo Aplicar transformación SQL y definir una instrucción CASE.
Ejemplos de expresiones relatve
En los ejemplos siguientes se muestra cómo dividir un conjunto de datos mediante la opción Expresión relativa en el módulo Dividir datos :
Uso del año natural
Un escenario común consiste en dividir un conjunto de datos por años. La expresión siguiente selecciona todas las filas donde los valores de la columna Year
son mayores que 2010
.
\"Year" > 2010
La expresión de fecha debe tener en cuenta todas las partes de fecha que se incluyen en la columna de datos y el formato de las fechas de la columna de datos debe ser coherente.
Por ejemplo, en una columna de fecha con el formato mmddyyyy
, la expresión debe ser similar a la siguiente:
\"Date" > 1/1/2010
Uso de índices de columna
La siguiente expresión muestra cómo puede utilizar el índice de columna para seleccionar todas las filas de la primera columna del conjunto de datos que contienen valores menores o iguales a 30, pero no iguales a 20.
(\0)<=30 & !=20
Operación compuesta en valores de tiempo mediante varias divisiones
Supongamos que quiere dividir una tabla de datos del registro para agrupar las consultas que se ejecutan demasiado tiempo. Puede usar la siguiente expresión relativa en la columna , Elapsed
, para obtener las consultas que se ejecutaron más de 1 minuto.
\"Elapsed" >00:01:00
Para obtener las consultas con tiempos de respuesta menores de un minuto pero más de 30 segundos, agregue otra instancia de Split Data (Dividir datos ) en la salida de la derecha y use una expresión como esta:
\"Elapsed" <:00:01:00 & >00:00:30
División del conjunto de datos en valores de fecha
La siguiente expresión relativa divide el conjunto de datos mediante los valores de fecha de la columna dt1
.
\"dt1" > 10-08-2015
Las filas con una fecha mayor que 10-08-2015 se agregan al primer conjunto de datos de salida (izquierda).
Las filas con una fecha de 10-08-2015 o anterior se agregan al segundo conjunto de datos de salida (derecho).
Notas técnicas
Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.
Restricciones
Las restricciones siguientes se aplican a expresiones relativas en un conjunto de datos:
- Las expresiones relativas solo se pueden aplicar a los tipos de datos numéricos y a los tipos de datos de fecha y hora.
- Las expresiones relativas pueden hacer referencia a un nombre de columna como máximo.
- Use el carácter y comercial (&) para la operación AND y el carácter de barra vertical (|) para la operación OR.
- Se permiten los operadores siguientes para expresiones relativas:
<
,>
,<=
,>=
,==
!=
- No se admite la agrupación de operaciones con paréntesis.