Data Transformation - Manipulation (Transformación de datos - Manipulación)
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
En este artículo se describen los módulos de Machine Learning Studio (clásico) que puede usar para la manipulación de datos básica.
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
Machine Learning Studio (clásico) admite tareas específicas del aprendizaje automático, como la normalización o la selección de características. Los módulos de esta categoría están diseñados para tareas más generales.
Tareas de manipulación de datos
Los módulos de esta categoría están diseñados para admitir las tareas principales de administración de datos que podrían tener que realizarse en Machine Learning Studio (clásico). Las tareas siguientes son ejemplos de tareas principales de administración de datos:
- Combine dos conjuntos de datos, ya sea mediante combinaciones o combinando columnas o filas.
- Cree nuevas categorías para usarlas en la agrupación de datos.
- Modificar encabezados de columna, cambiar tipos de datos de columna o marcar columnas como características o etiquetas.
- Compruebe si faltan valores y, a continuación, reempláquelos por los valores adecuados.
Tareas relacionadas
- Realizar muestreo o dividir un conjunto de datos en conjuntos de entrenamiento y pruebas: use los módulos Transformación de datos: ejemplo y División .
- Escalado de números, normalización de datos o colocación de valores numéricos en cubos: use los módulos Transformación de datos: escala y reducción .
- Realizar cálculos en campos de datos numéricos o generar estadísticas de uso frecuente: use las herramientas de Funciones estadísticas.
Ejemplos
Para obtener ejemplos de cómo trabajar con datos complejos en experimentos de aprendizaje automático, consulte estos ejemplos en el Azure AI Gallery:
- Procesamiento y análisis de datos: muestra las herramientas y los procesos clave.
- Detección de cáncer de cuello: muestra cómo particionar conjuntos de datos y, a continuación, aplicar un procesamiento especial a cada partición.
Módulos de esta categoría
La categoría Transformación de datos: manipulación incluye los módulos siguientes:
- Agregar columnas: agrega un conjunto de columnas de un conjunto de datos a otro.
- Agregar filas: anexa un conjunto de filas de un conjunto de datos de entrada al final de otro conjunto de datos.
- Aplicar SQL transformación: ejecuta una consulta de SQLite en conjuntos de datos de entrada para transformar los datos.
- Limpiar datos que faltan: especifica cómo controlar los valores que faltan en un conjunto de datos. Este módulo reemplaza a La limpieza de valores que faltan, que ha quedado en desuso.
- Convertir en valores de indicador: convierte los valores categóricos de las columnas en valores de indicador.
- Editar metadatos: edita los metadatos asociados a las columnas de un conjunto de datos.
- Valores categóricos de grupo: agrupa los datos de varias categorías en una nueva categoría.
- Datos de combinación: une dos conjuntos de datos.
- Quitar filas duplicadas: quita las filas duplicadas de un conjunto de datos.
- Seleccionar columnas del conjunto de datos: selecciona las columnas que se incluirán en un conjunto de datos o se excluirán de un conjunto de datos en una operación.
- Seleccionar transformación de columnas: crea una transformación que selecciona el mismo subconjunto de columnas que en un conjunto de datos especificado.
- SMOTE: aumenta el número de ejemplos de baja incidencia en un conjunto de datos mediante el uso de sobremuestreo minoritario sintético.