Dividir los datos mediante una expresión regular

Artículo
2019-05-06

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

En este artículo se describe cómo usar la opción División de expresiones regulares en el módulo Dividir datos de Machine Learning Studio (clásico). Esta opción es útil cuando necesita aplicar criterios de filtro a una columna de texto. Por ejemplo, puede dividir el conjunto de datos por si se menciona un producto determinado.

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Puede usar una división de expresiones regulares en una sola columna de texto. Defina una expresión regular que incluya el nombre de la columna de texto y, a continuación, establezca las condiciones que se aplican a la columna, como "begins with", ""contains" o "does not contain".

Para obtener información general sobre la creación de particiones de datos para experimentos de aprendizaje automático, consulte División de datos y partición y división.

Otras opciones del módulo Dividir datos:

Dividir datos mediante expresiones relativas: aplique una expresión a datos numéricos.
Dividir conjuntos de datos recomendadores: divida los conjuntos de datos que se usan en los modelos de recomendación. El conjunto de datos debe tener tres columnas: elementos, usuarios y clasificaciones.
División por porcentaje del conjunto de datos

Uso de una expresión regular para dividir un conjunto de datos

Agregue el módulo Split Data al experimento y conéctelo como entrada en el conjunto de datos que quiere dividir.
Para Splitting mode, seleccione Regular expression split.
En el cuadro Expresión regular, escriba una expresión regular válida. Aquí se proporcionan algunos ejemplos.

La expresión regular solo se aplica a la columna especificada, que debe ser un tipo de datos de cadena.

Para obtener ayuda para crear expresiones regulares, vea Lenguaje de expresiones regulares: referencia rápida.
Ejecute el experimento o haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.

En función de la expresión regular que proporcione, el conjunto de datos se divide en dos conjuntos de filas: las filas con valores que coinciden con la expresión y todas las filas restantes.

Ejemplos

En los ejemplos siguientes se muestra cómo dividir un conjunto de datos mediante la opción Expresión regular.

Palabra completa única

Este ejemplo coloca en el primer conjunto de datos todas GryphonTextlas filas que contienen el texto de la columna y coloca otras filas en la segunda salida de Dividir datos:

    \"Text" Gryphon

Substring

En este ejemplo se busca la cadena especificada en cualquier posición dentro de la segunda columna del conjunto de datos, indicado aquí por el valor de índice de 1. La coincidencia distingue entre mayúsculas y minúsculas.

(\1) ^[a-f]

El primer conjunto de datos de resultados contiene todas las filas en las que la columna de índice comienza con uno de estos caracteres: a, b, c, d, e, f. Todas las demás filas se dirigen a la segunda salida.

Coincidencia de cadena en direcciones IP

En este ejemplo se dividen algunos datos de registro del servidor en dos categorías para su análisis: conexiones detrás del firewall y conexiones con direcciones IP fuera del firewall. La expresión regular se aplica al campo IP_Address (un tipo de datos de cadena).

(\IP_Address) ^[10]

La primera salida contiene todas las direcciones que comienzan por 10.

Consulte también

Muestrear y dividir
Partición y ejemplo

Compartir a través de