Importación desde dirección web mediante HTTP

Artículo
2019-05-06

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

En este artículo se describe cómo usar el módulo Importar datos en Machine Learning Studio (clásico) para leer datos de una página web pública para su uso en un experimento de aprendizaje automático.

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Los datos publicados en una página web tienen las siguientes restricciones:

Los datos deben estar en uno de los formatos admitidos: CSV, TSV, ARFF o SvmLight. Otros datos provocarán errores.
No se requiere ni se admite la autenticación. Los datos deben estar disponibles públicamente.

Cómo importar datos a través de HTTP

Hay dos maneras de obtener datos: usar el asistente para configurar el origen de datos o configurarlo manualmente.

Usar el Asistente para importación de datos

Agregue el módulo Importación de datos al experimento. Puede encontrar el módulo en Studio (clásico), en la categoría Entrada y salida de datos.
Haga clic en Iniciar el Asistente para importación de datos y seleccione Dirección web mediante HTTP.
Pegue la dirección URL y seleccione un formato de datos.
Una vez completada la configuración, haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.

Para editar una conexión de datos existente, vuelva a iniciar el asistente. El asistente carga todos los detalles de configuración anteriores para que no tenga que volver a empezar desde cero

Establecer manualmente las propiedades en el módulo Importar datos

En los pasos siguientes se describe cómo configurar manualmente el origen de la importación.

Agregue el módulo Importación de datos al experimento. Puede encontrar el módulo en Studio (clásico), en la categoría Entrada y salida de datos.
Para Origen de datos, seleccione Dirección web mediante HTTP.
Para URL, escriba o pegue la dirección URL completa de la página que contiene los datos que desea cargar.

La dirección URL debe incluir la dirección URL del sitio y la ruta de acceso completa a la página que contiene los datos que se van a cargar, incluyendo el nombre de archivo y la extensión.

Por ejemplo, la página siguiente contiene el conjunto de datos Iris del repositorio de aprendizaje automático de la Universidad de California, Irvine:

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
Para Formato de datos, seleccione uno de los formatos de datos admitidos de la lista.

Se recomienda que compruebe siempre los datos con antelación para determinar el formato. La página de la UC Irvine utiliza el formato CSV. Otros formatos de datos admitidos son TSV, ARFF y SvmLight.
Si los datos están en formato CSV o TSV, use la opción El archivo tiene fila de encabezado para indicar si el origen de datos incluye una fila de encabezado. La fila de encabezado se usa para asignar nombres de columna.
Seleccione la opción Usar resultados en caché si no prevé que los datos cambien mucho o si desea evitar tener que volver a cargar los datos cada vez que ejecute el experimento.

Cuando se selecciona esta opción, el experimento carga los datos la primera vez que se ejecuta el módulo y, después, usa una versión almacenada en caché del conjunto de datos.

Si desea volver a cargar el conjunto de datos en cada iteración del conjunto de datos del experimento, anule la selección de la opción Usar resultados almacenados en caché. Los resultados también se cargan de nuevo si hay algún cambio en los parámetros de Importar datos.
Ejecute el experimento.

Results

Cuando haya terminado, haga clic en el conjunto de datos de salida y seleccione Visualizar para ver si los datos se han importado correctamente.

Ejemplos

Consulte estos ejemplos en el Azure AI Gallery experimentos de aprendizaje automático que obtienen datos de sitios web públicos:

Ejemplo de reconocimiento de letras: obtiene un conjunto de datos de entrenamiento del repositorio de aprendizaje automático público hospedado por UC Irvine.
Descargar conjunto de datos UCI: lee un conjunto de datos en formato CSV.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Preguntas frecuentes

¿Puedo filtrar los datos a medida que se leen desde el origen?

No. Esta opción no se admite con este origen de datos.

Después de leer los datos en Machine Learning Studio (clásico), puede dividir el conjunto de datos, usar muestreo, etc. para obtener solo las filas que desee:

Escriba código R simple en Ejecutar script R para obtener una parte de los datos por filas o columnas.
Use el módulo Dividir datos con una expresión relativa o una expresión regular para aislar los datos que desee.
Si cargó más datos de los que necesita, sobrescriba el conjunto de datos almacenado en caché leyendo un nuevo conjunto de datos y guardéndolo con el mismo nombre.

¿Cómo puedo evitar volver a cargar los mismos datos innecesariamente?

Si los datos de origen cambian, puede actualizar el conjunto de datos y agregar nuevos datos mediante la nueva ejecución de Importar datos.

Si no desea volver a leer del origen cada vez que ejecute el experimento, seleccione la opción Usar resultados almacenados en caché en TRUE. Cuando esta opción se establece en TRUE, el módulo comprueba si el experimento se ha ejecutado previamente con las mismas opciones de origen y de entrada. Si se encuentra una ejecución anterior, se usan los datos de la memoria caché, en lugar de volver a cargar los datos desde el origen.

¿Por qué se agregó una fila adicional al final del conjunto de datos?

Si el módulo Importar datos encuentra una fila de datos seguida de una línea vacía o un carácter de línea nueva final, se agrega una fila adicional al final de la tabla. Esta fila nueva contiene valores que faltan.

La razón para interpretar una nueva línea final como una nueva fila es que Importar datos no puede determinar la diferencia entre una línea vacía real y una línea vacía creada por el usuario presionando ENTRAR al final de un archivo.

Dado que algunos algoritmos de aprendizaje automático admiten la falta de datos y, por tanto, tratarían esta línea como un caso (lo que a su vez podría afectar a los resultados), debe usar Limpiar datos que faltan para comprobar si faltan valores (especialmente las filas que están completamente vacías) y quitarlos según sea necesario.

Antes de comprobar si hay filas vacías, es posible que también quiera dividir el conjunto de datos mediante Dividir datos. Esto separa las filas con valores que faltan parciales, que representan los valores que faltan reales en el origen de datos. Use la opción Seleccionar N filas de encabezado para leer la primera parte del conjunto de datos en un contenedor independiente de la última línea.

¿Por qué algunos caracteres del archivo de código fuente no se muestran correctamente?

Machine Learning admite la codificación UTF-8. Si el archivo de origen utiliza otro tipo de codificación, puede que los caracteres no se importen correctamente.

Parámetros del módulo

Nombre	Intervalo	Tipo	Valor predeterminado	Descripción
Origen de datos	Lista	Origen de datos o receptor	Azure Blob Storage	El origen de datos puede ser HTTP, FTP, HTTPS anónimo o FTPS, un archivo en Azure BLOB Storage, una tabla de Azure, un Azure SQL Database, una base de datos SQL Server local, una tabla de Hive o un punto de conexión de OData.
URL	cualquiera	String	ninguno	Dirección URL de HTTP
Formato de datos	CSV TSV ARFF SvmLight	Formato de datos	CSV	Tipo de archivo de origen HTTP
El archivo TSV o CSV tiene fila de encabezado	TRUE/FALSE	Boolean	false	Indica si el archivo CSV o TSV tiene una fila de encabezado
Uso de resultados almacenados en caché	TRUE/FALSE	Boolean	FALSE	El módulo solo se ejecuta si no existe una caché válida. De lo contrario, se usan los datos almacenados en caché de la ejecución anterior.

Salidas

Nombre	Tipo	Descripción
Conjunto de datos de resultados	Tabla de datos	Conjunto de datos con datos descargados

Excepciones

Excepción	Descripción
Error 0027	Se produce una excepción cuando dos objetos tienen que ser del mismo tamaño pero no lo son.
Error 0003	Se produce una excepción si una o varias de las entradas son nulas o están vacías.
Error 0029	Se produce una excepción cuando se pasa un URI no válido.
Error 0030	Se produce una excepción cuando no es posible descargar un archivo.
Error 0002	Se produce una excepción si uno o más parámetros no se pudieron analizar o convertir del tipo especificado al tipo requerido por el método de destino.
Error 0048	Se produce una excepción cuando no es posible abrir un archivo.
Error 0046	Se produce una excepción si no es posible crear el directorio en la ruta de acceso especificada.
Error 0049	Se produce una excepción cuando no es posible analizar un archivo.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Import Data
Export Data
Importar desde una consulta de Hive
Importación desde Azure SQL Database
Importar desde una tabla de Azure
Importación desde Azure Blob Storage
Importar desde los proveedores de fuentes de distribución de datos
Importar desde la base de datos de SQL Server local

Compartir a través de