Transformación de datos: ejemplo y división
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
En este artículo se describen los módulos de Machine Learning Studio (clásico) que puede usar para crear particiones o datos de ejemplo.
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
La división y el muestreo de conjuntos de datos son tareas importantes en el aprendizaje automático. Por ejemplo, es una práctica común dividir los datos en conjuntos de entrenamiento y pruebas para ayudarle a evaluar un modelo en un conjunto de datos de bloqueo. El muestreo también es cada vez más importante en la era de los big data, para asegurarse de que hay una distribución equitativa de las clases en los datos de entrenamiento. El muestreo también ayuda a garantizar que no se están procesando más datos de los necesarios.
Puede usar los módulos Machine Learning Studio (clásico) para personalizar la manera en que divide o muestrea los conjuntos de datos:
- Filtre los datos de entrenamiento en función de un atributo de los datos.
- Realice un muestreo estratificado para dividir la variable de clase por igual entre n grupos.
- Divida los datos de origen en un conjunto de datos de entrenamiento y pruebas mediante una relación personalizada.
- Aplique expresiones regulares a los datos para filtrar valores no válidos.
Elección de la operación correcta: División o muestreo
Machine Learning Studio (clásico) proporciona dos módulos que encapsulan tareas. Los módulos son similares, pero tienen usos diferentes y proporcionan funcionalidad complementaria. Es probable que use ambos módulos en un experimento para obtener la cantidad correcta y la combinación correcta de datos.
A continuación, comparamos el módulo Split Data (Dividir datos) y el módulo Partition and Sample (Partición y ejemplo) viendo para qué tareas se usa normalmente cada módulo.
Usos del módulo Split Data (Dividir datos)
- Divida los datos en dos grupos. Use el módulo Split Data (Dividir datos). El módulo genera exactamente dos divisiones de los datos. Puede especificar la condición en la que se dividen los datos y la proporción de los datos que se colocarán en cada subconjunto. Dividir datos siempre guarda el subconjunto de datos que no cumple las condiciones.
- Asigne valores de etiqueta por igual a los conjuntos de datos. Ambos módulos admiten la opción de estratificación en una columna especificada. Sin embargo, si desea crear dos conjuntos de datos y está interesado principalmente en la columna de etiqueta, el módulo Split Data (Dividir datos) es una solución rápida.
Ejemplo de uso del módulo Split Data (Dividir datos)
Supongamos que importó un conjunto de datos muy grande desde un archivo CSV. El conjunto de datos contiene datos demográficos de los clientes. Quiere crear modelos diferentes para clientes de distintos países, por lo que decide dividir los datos mediante el valor de la Country-Region
columna. Estos son los pasos que debe seguir para completar esta tarea:
- Agregue el módulo Split Data (Dividir datos) y especifique una expresión en el
Country-Region
campo . El resto de los datos está disponible en la salida secundaria. - Agregue otra instancia del módulo Split Data (Dividir datos).
- Repita los pasos 1 y 2. Especifique un país diferente en la expresión para cada iteración.
El módulo Split Data (Dividir datos) admite expresiones regulares, para datos de texto y expresiones relativas, para datos numéricos.
El módulo Split Data (Dividir datos) también proporciona una funcionalidad sofisticada que puede usar para dividir conjuntos de datos especializados. Use la funcionalidad para crear modelos de recomendación y generar predicciones.
Usos del módulo Partición y ejemplo
- Muestreo. Use siempre el módulo Partición y ejemplo. El módulo proporciona varios métodos de muestreo personalizables, incluidas varias opciones para el muestreo estratificado.
- Asigne casos a varios grupos. Use las opciones Asignar a plegaro Seleccionar plegado en el módulo Partición y ejemplo.
- Devuelve solo un subconjunto de los datos. Use el módulo Partición y ejemplo. El módulo proporciona el subconjunto especificado en la salida principal. Los datos restantes están disponibles en una salida secundaria.
- Obtenga solo las 2000 primeras filas de un conjunto de datos. Use el módulo Partición y ejemplo. Seleccione la opción Head (Principal). Esto es especialmente útil cuando se prueba un experimento nuevo y se quieren ejecutar pruebas cortas de un flujo de trabajo.
Ejemplo de uso del módulo Partición y ejemplo
El módulo Partición y ejemplo puede generar varias particiones de los datos, no solo dos. Al mismo tiempo, puede realizar varias operaciones de muestreo.
Por ejemplo, supongamos que solo necesita obtener el 10 por ciento de los datos, al tiempo que garantiza que la distribución del atributo de destino es la misma que en los datos de origen. Estos son los pasos que debe seguir para completar esta tarea:
- Agregue el módulo Partición y ejemplo.
- Elija el modo de muestreo y, a continuación, especifique 10 %.
- Seleccione la opción de muestreo estratificado y, a continuación, elija la columna que contiene el atributo de destino.
Si no necesita conservar todos los datos, use el módulo Partición y ejemplo. Los datos restantes siguen estando presentes en el área de trabajo, pero no es necesario procesarse más como parte del experimento.
Tareas relacionadas
- Aumentar el número de casos poco frecuentes en una muestra o reequilibrar los casos para un valor de destino: Use el módulo SMOTE .
- Realice una reducción de dimensionalidad mediante la búsqueda de la combinación de características que mejor representa el espacio de datos: Use el módulo Análisis de componentes principales .
- Crear características compactas basadas en un análisis de características y recuentos: use el módulo Learning con recuentos.
- Cree una vista o proyección usando solo las columnas especificadas; quitar u ocultar columnas de un conjunto de datos: use los módulos Seleccionar columnas del conjunto de datos y Aplicar SQL transformación.
- Aplicar filtros de datos, agrupaciones o transformaciones más complejos: use los módulos Ejecutar script R y Aplicar SQL transformación.
Lista de módulos
Esta categoría incluye los siguientes módulos:
- Partición y ejemplo: crea varias particiones de un conjunto de datos en función del muestreo.
- Dividir datos: divide las filas de un conjunto de datos en dos conjuntos distintos.