Compartir a través de


Conversión a CSV

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Convierte la entrada de datos en un formato de valores separados por comas

Categoría: Conversiones de formato de datos

Nota

Se aplica a: solo Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Convertir en CSV en Machine Learning Studio (clásico), para convertir un conjunto de datos de Azure ML en un formato CSV que se pueda descargar, exportar o compartir con módulos de script de R o Python.

Más información sobre el formato CSV

El formato CSV, que es el acrónimo de "valores separados por comas", es un formato de archivo utilizado por muchas herramientas externas de Machine Learning. Aunque el formato de conjunto de datos nativo usado por Machine Learning se basa en la tabla de datos de .NET y, por tanto, se puede leer mediante bibliotecas de .NET, CSV es un formato de intercambio común al trabajar con lenguajes de código abierto como R o Python.

Incluso si hace la mayor parte del trabajo en Machine Learning Studio (clásico), hay ocasiones en las que es posible que le resulte útil convertir el conjunto de datos en CSV para usarlo en herramientas externas. Por ejemplo:

  • Descargue el archivo CSV para abrirlo con Excel o importarlo a una base de datos relacional.
  • Guarde el archivo CSV en el almacenamiento en la nube y conéctese desde Power BI para crear visualizaciones.
  • Use el formato CSV para preparar los datos para su uso en R y Python. Simplemente haga clic con el botón derecho en la salida del módulo a fin de generar el código necesario para tener acceso a los datos directamente desde Python o un cuaderno de Jupyter.

Al convertir un conjunto de datos a CSV, el archivo se guarda en el área de trabajo de Azure ML. Puede usar una utilidad de Azure Storage para abrir y usar el archivo directamente o puede hacer clic con el botón derecho en la salida del módulo y descargar el archivo CSV en el equipo o utilizarlo en código R o Python.

Procedimiento para configurar Convertir a CSV

  1. Agregue el módulo Convertir a CSV al experimento. Puede encontrar este módulo en el grupo Conversiones de formato de datos en Studio (clásico).

  2. Conéctelo a cualquier módulo que genere un conjunto de datos.

  3. Ejecute el experimento o haga clic en el módulo Convertir en CSV y haga clic en Ejecutar seleccionado.

Results

Haga doble clic en la salida de Convertir a CSV y seleccione una de estas opciones.

  • Descargar: abre inmediatamente una copia de los datos en formato CSV que puede guardar en una carpeta local. Si no especifica una carpeta, se aplica un nombre de archivo predeterminado y el archivo CSV se guarda en la biblioteca local Descargas.

    Si selecciona Descargar conjunto de datos, debe indicar si desea abrir el conjunto de datos o guardarlo en un archivo local.

    Si selecciona Abrir, el conjunto de datos se carga mediante la aplicación asociada de forma predeterminada con .CSV archivos: por ejemplo, Microsoft Excel.

    Si selecciona Descargar conjunto de datos, de forma predeterminada, el archivo se guarda con el nombre del módulo más un GUID que representa el identificador del área de trabajo. Sin embargo, puede seleccionar la opción Guardar como durante la descarga y cambiar el nombre de archivo o la ubicación.

  • Guardar como conjunto de datos: vuelve a guardar el archivo CSV en el área de trabajo de Azure ML como un conjunto de datos independiente.

  • Generar código de acceso a datos: Azure ML genera dos conjuntos de código para acceder a los datos, ya sea mediante Python o mediante R. Para acceder a los datos, copie el fragmento de código en la aplicación.

  • Abrir en un nuevo cuaderno: se crea un nuevo cuaderno de Jupyter Notebook automáticamente y se inserta código para leer los datos del área de trabajo con el lenguaje que prefiera: Python 2, Python 3 o R con Microsoft R Open.

    Por ejemplo, si elige la opción R, se proporciona código R de ejemplo que carga el archivo CSV en una trama de datos y muestra las primeras filas mediante la head función .

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Requisitos del formato CSV

El formato de archivo CSV es un formato popular admitido por muchos marcos de aprendizaje automático. El formato se conoce de forma diversa a "valores separados por comas" o "valores separados por caracteres".

Un archivo CSV almacena datos tabulares (números y texto) en forma de texto sin formato. Cada archivo CSV se compone de una serie de registros, separados por saltos de línea de algún tipo. Cada registro consta de campos, separados por una coma literal. En algunas regiones, el separador podría ser un punto y coma.

Normalmente, todos los registros tienen un número idéntico de campos y los valores que faltan se representan como valores NULL o cadenas vacías.

Sugerencia

Puede exportar fácilmente datos de Excel, Access o una base de datos relacional en archivos CSV, para usarlos en Machine Learning. Aunque los nombres de archivo suelen tener la extensión .CSV, Machine Learning no requiere que esta extensión de nombre de archivo esté presente si desea importar los datos como CSV. Puede importar XLSX, TXT y otros archivos como CSV. Sin embargo, los campos del archivo deben tener el formato descrito en la sección anterior y el archivo debe usar la codificación UTF-8.

Preguntas y problemas comunes

En esta sección se describen algunos problemas conocidos, preguntas comunes y soluciones alternativas específicas del módulo Convertir en CSV .

Los encabezados deben ser filas únicas

El formato de archivo CSV usado en Machine Learning admite una sola fila de encabezado. No se pueden insertar encabezados de varias líneas.

Separadores personalizados admitidos en la importación, pero no en la exportación

El módulo Convertir en CSV no admite la generación de separadores de columna alternativos, como el punto y coma (;), que a menudo se usa en Europa.

Sin embargo, al importar datos de archivos CSV en almacenamiento externo, puede especificar separadores alternativos. En el módulo Importar datos , seleccione la opción CSV con codificaciones y elija una codificación compatible.

Separación de columnas inexactas en datos de cadena que contienen comas

Es un problema común en el procesamiento de texto que, aproximadamente, cada carácter que se puede especificar como separador de columnas (pestañas, espacios, comas, etc.) también se puede encontrar aleatoriamente en campos de texto. La importación de texto desde CSV siempre requiere precaución para evitar separar el texto entre columnas nuevas innecesarias.

Al intentar exportar una columna de datos de cadena que contiene comas, también podría surgir problemas. Machine Learning no admite ningún tratamiento especial ni traducción especial de dichos datos, como cadenas envolventes entre comillas. Además, no puede usar caracteres de escape antes de una coma para asegurarse de que las comas se controlan como un carácter literal.

Por lo tanto, se crean nuevos campos en el archivo de salida para cada coma que se encuentra en el campo de cadena. Para evitar este problema, hay varias soluciones alternativas:

Se requiere codificación UTF-8

El módulo Convertir a CSV solo admite la codificación de caracteres UTF-8. Si necesita exportar datos mediante una codificación diferente, puede intentar usar los módulos Execute R Script (Ejecutar script R) o Execute Python Script (Ejecutar script de Python ) para generar una salida personalizada.

El conjunto de datos no tiene nombres de columna

Si el conjunto de datos que va a exportar a un archivo CSV no tiene nombres de columna, se recomienda usar Editar metadatos para agregar nombres de columna antes de convertirlos. No se pueden agregar nombres de columna como parte del proceso de conversión o exportación.

SYLK: el formato de archivo no es válido

Si la primera columna del conjunto de datos que convierte en CSV tiene el identificador de nombre, es posible que reciba el siguiente error al intentar abrir el archivo en Excel:

"SYLK: El formato de archivo no es válido".

Para evitar este error, debe cambiar el nombre de la columna.

Necesito ayuda para importar desde CSV

Para la importación, no use el módulo Exportar a CSV . En su lugar, use el módulo Importar datos .

Para obtener información general sobre la importación desde CSV, consulte estos recursos:

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Output

Nombre Tipo Descripción
Conjunto de datos de resultados GenericCsv Conjunto de datos de salida

Consulta también

Conversiones de formato de datos
Lista de módulos A-Z