Importar desde los proveedores de fuentes de distribución de datos
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
En este artículo se describe cómo usar el módulo Importar datos en Machine Learning Studio (clásico) para importar los datos proporcionados en el formato OData en un experimento de aprendizaje automático.
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
La creación de un punto de conexión de OData para un conjunto de datos es una manera de hacer que un modelo de datos esté disponible para su consumo a través de una dirección URL. También puede especificar qué operaciones de OData admitirá el punto de conexión. Para obtener más información sobre cómo crear Odata
puntos de conexión, vea OData v4 (ASP.NET).
Importación de datos desde una fuente
Se recomienda encarecidamente generar el perfil de los datos antes de importar, para asegurarse de que el esquema sea el esperado. El proceso de importación examina algunas filas de encabezado para determinar el esquema, pero las filas posteriores pueden contener columnas adicionales o datos que provoquen errores.
Usar el Asistente para importación de datos
El módulo incluye un nuevo asistente para ayudarle a elegir una opción de almacenamiento. Use el asistente para seleccionar entre las suscripciones y cuentas existentes y configurar rápidamente todas las opciones.
Agregue el módulo Importación de datos al experimento. Puede encontrar el módulo en Studio (clásico), en la categoría Entrada y salida de datos.
Haga clic en Iniciar el Asistente para importar datos y siga las indicaciones.
Una vez completada la configuración, para copiar realmente los datos en el experimento, haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.
Si necesita editar una conexión de datos existente, el asistente carga todos los detalles de configuración anteriores para que no tenga que volver a empezar desde cero.
Establecer manualmente las propiedades en el módulo Importar datos
También puede configurar manualmente el origen de importación.
Agregue el módulo Importación de datos al experimento. Puede encontrar este módulo en Studio (clásico), en la categoría Entrada y salida de datos.
En Origen de datos, seleccione Proveedor de fuentes de distribución de datos.
En Tipo de contenido de datos, seleccione el tipo de fuente. Actualmente solo se admiten puntos de conexión de OData.
En Url de origen, pegue la dirección URL de un sitio que proporciona datos en el formato necesario.
Por ejemplo, la siguiente instrucción obtiene la lista de productos de la base de datos de ejemplo Northwind:
https://services.odata.org/northwind/northwind.svc/Products
Para obtener más información, vea Sintaxis de OData.
Seleccione la opción Usar resultados almacenados en caché si no necesita volver a cargar los datos después de la primera vez. Esta es una buena opción si no se espera que los datos cambien entre las ejecuciones del experimento.
Si no hay ningún otro cambio en los parámetros del módulo, el experimento carga los datos la primera vez que se ejecuta el módulo y, a continuación, usa una versión almacenada en caché del conjunto de datos.
Si necesita actualizar periódicamente los datos, anule la selección de esta opción.
Ejecute el experimento.
Results
Cuando haya terminado, haga clic en el conjunto de datos de salida y seleccione Visualizar para ver si los datos se han importado correctamente.
Cuando Importar datos carga los datos de fuente en Studio (clásico), deduce el tipo de datos de cada columna en función de los valores que contiene, ya sea numéricos o categóricos.
Si el encabezado está presente, se utiliza para asignar nombres a las columnas del conjunto de datos de salida.
Si no hay ningún encabezado de columna existente en los datos, se generan nuevos nombres de columna con el formato
col1, col2,… ,coln
.
Notas técnicas
Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.
Sintaxis de OData
La consulta debe devolver una tabla plana. No se admite el aplanado de registros OData anidados.
Algunas columnas incluidas en las fuentes de OData pueden tener tipos de datos que no se admiten en Studio (clásico), como decimales. Puede ingerir los datos como cadenas y convertirlos más adelante mediante los módulos Ejecutar script R o Editor de metadatos .
Para obtener más información sobre la sintaxis y las direcciones URL de OData, vea Odata.org- convenciones de URI
Preguntas frecuentes
¿Puedo filtrar los datos mientras se leen desde el origen?
Por lo general, el módulo Importar datos no admite el filtrado a medida que se leen los datos. Sin embargo, puede especificar una condición de filtro como parte de la dirección URL del recurso de fuente.
Para filtrar los datos de la fuente, use instrucciones compatibles con el protocolo OData. Por ejemplo, esta dirección URL usa la expresión $filter
para obtener solo los pedidos relacionados con el empleado con un identificador igual a 1.
https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1
Para obtener más ejemplos de sintaxis de filtro, vea Usar expresiones de filtro en URI de OData.
Como alternativa, puede obtener todos los datos y filtrarlo después de cargarlo en Machine Learning Studio (clásico):
Use un script de R personalizado para obtener solo los datos que desee.
Use el módulo Split Data (Dividir datos) con una expresión relativa o una expresión regular para aislar los datos que desea y, a continuación, guárdelos como un conjunto de datos.
Nota:
Si descubre que ha cargado más datos de los que necesita, puede sobrescribir el conjunto de datos en caché. Para ello, lea un nuevo conjunto de datos y guárdelo con el mismo nombre que los datos más antiguos y más grandes.
Aparece el error Credentials are required to connect to the OData source (Se necesitan credenciales para conectarse al origen de OData). Actualice y proporcione las credenciales para continuar. ¿Cómo puedo proporcionar credenciales?**
El módulo Importar datos solo admite puntos de conexión de OData con acceso anónimo. Si el servicio OData requiere credenciales, no puede usar la opción OData para obtener los datos.
Sin embargo, si el servicio está en el mismo dominio, la autenticación a veces puede producirse automáticamente sin intervención del usuario.
Como solución alternativa, puede usar PowerQuery o PowerPivot para leer los datos de fuente y, a continuación, obtener los datos de Excel.
¿Cómo puedo evitar volver a cargar innecesariamente los mismos datos?
Si los datos de origen cambian, puede actualizar el conjunto de datos y agregar nuevos datos si vuelve a ejecutar Importar datos. Sin embargo, si no desea volver a leer el origen cada vez que ejecute el experimento, seleccione TRUE para la opción Use cached results (Utilizar resultados almacenados en caché). Cuando esta opción se establece en TRUE, el módulo comprobará si el experimento se ha ejecutado previamente con el mismo origen y las mismas opciones de entrada y, si se encuentra una ejecución anterior, se usan los datos de la memoria caché, en lugar de volver a cargar los datos del origen.
¿Por qué aparece un mensaje de error "Type Decimal is not supported"?
El decimal
tipo de datos no se admite en Machine Learning. El motivo es que Importar datos no puede realizar automáticamente ninguna conversión que provocaría una pérdida de precisión.
Para obtener más información sobre los tipos de datos admitidos, vea Tipos de datos de módulo.
Como solución alternativa, puede leer los datos como un tipo de datos de cadena y, a continuación, usar Editar metadatos para convertir los decimales en datos admitidos antes de leer los datos.
¿Por qué algunos caracteres de la fuente no se muestran correctamente?
Machine Learning admite la codificación UTF-8. Si el origen usa otro tipo de codificación, es posible que los caracteres no se importen correctamente.
Como solución alternativa, puede guardar los datos en un archivo CSV en Azure Table Storage o Azure Blob Storage. A continuación, use la opción CSV con codificación para especificar parámetros para delimitadores personalizados, la página de códigos, etc.
Parámetros del módulo
Nombre | Intervalo | Tipo | Valor predeterminado | Descripción |
---|---|---|---|---|
Origen de datos | Lista | Origen de datos o receptor | Azure Blob Storage | El origen de datos puede ser HTTP, FTP, HTTPS anónimo o FTPS, un archivo en Azure BLOB Storage, una tabla de Azure, un Azure SQL Database, una base de datos SQL Server local, una tabla de Hive o un punto de conexión de OData. |
Tipo de contenido de datos | Lista (subconjunto) | Contenido de la dirección URL | OData | Tipo de formato de datos |
Dirección URL de origen | cualquiera | String | Dirección URL del Power Query de datos | |
Uso de resultados almacenados en caché | TRUE/FALSE | Boolean | FALSE | description |
Salidas
Nombre | Tipo | Descripción |
---|---|---|
Conjunto de datos de resultados | Tabla de datos | Conjunto de datos con datos descargados |
Excepciones
Excepción | Descripción |
---|---|
Error 0003 | Se produce una excepción si una o varias de las entradas son nulas o están vacías. |
Error 0029 | Se produce una excepción cuando se pasa un URI no válido. |
Error 0030 | Se produce una excepción cuando no es posible descargar un archivo. |
Error 0002 | Se produce una excepción si uno o más parámetros no se pudieron analizar o convertir del tipo especificado al tipo requerido por el método de destino. |
Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.
Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.
Consulte también
Import Data
Export Data
Importar desde una dirección web mediante HTTP
Importar desde una consulta de Hive
Importación desde Azure SQL Database
Importar desde una tabla de Azure
Importación desde Azure Blob Storage
Importar desde la base de datos de SQL Server local