Conexión a los datos con Azure Machine Learning Studio
En este artículo se muestra cómo acceder a los datos con Estudio de Azure Machine Learning. Conéctese a los datos en los servicios de almacenamiento de Azure con almacenes de datos de Azure Machine Learning. Después, empaquete esos datos para las tareas de flujo de trabajo de Machine Learning con conjuntos de datos de Azure Machine Learning.
En esta tabla se definen y resumen las ventajas de los almacenes de datos y los conjuntos de datos.
Object | Descripción | Ventajas |
---|---|---|
Almacenes de datos | Para conectarse de forma segura al servicio de almacenamiento en Azure, almacene la información de la conexión (id. de suscripción, autorización de token, etc.) en la instancia de Key Vault asociada al área de trabajo | Como la información se almacena de forma segura, no pone en riesgo las credenciales de autenticación ni los orígenes de datos originales, y ya no necesita codificar estos valores en los scripts |
Conjuntos de datos | La creación de conjuntos de datos también crea una referencia a la ubicación del origen de datos, junto con una copia de sus metadatos. Con los conjuntos de datos puede acceder a los datos durante el entrenamiento del modelo, compartir datos y colaborar con otros usuarios, y usar bibliotecas de código abierto, como pandas, para la exploración de datos. | Como los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, se mantiene una única copia de los datos en el almacenamiento. Además, no incurre en ningún costo de almacenamiento adicional, evita cambios accidentales en los orígenes de datos originales y mejora las velocidades de rendimiento del flujo de trabajo de ML. |
Para obtener información sobre dónde encajan los almacenes de datos y los conjuntos de datos en el flujo de trabajo general de acceso a datos de Azure Machine Learning, visite Acceso seguro a los datos.
Para más información sobre el SDK de Python de Azure Machine Learning y una experiencia orientada al código, vea lo siguiente:
- Conexión a servicios de almacenamiento de Azure con almacenes de datos
- Creación de conjuntos de datos de Azure Machine Learning
Requisitos previos
Suscripción a Azure. Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.
Acceso a Estudio de Azure Machine Learning
Un área de trabajo de Azure Machine Learning. Creación de recursos de área de trabajo
- Al crear un área de trabajo, se registran automáticamente un contenedor de blobs de Azure y un recurso compartido de archivos de Azure en el área de trabajo como almacenes de datos. Se denominan
workspaceblobstore
yworkspacefilestore
, respectivamente. Para que los recursos de Blob Storage sean suficientes,workspaceblobstore
se establece como almacén de datos predeterminado ya configurado para su uso. Si necesita más recursos de Blob Storage, necesita una cuenta de almacenamiento de Azure, con un tipo de almacenamiento admitido.
- Al crear un área de trabajo, se registran automáticamente un contenedor de blobs de Azure y un recurso compartido de archivos de Azure en el área de trabajo como almacenes de datos. Se denominan
Creación de almacenes de datos
Puede crear almacenes de datos a partir de estas soluciones de Azure Storage. En el caso de las soluciones de almacenamiento no compatibles, y para ahorrar el costo de salida durante los experimentos de ML, debe mover los datos a una solución de Azure Storage compatible. Para más información sobre los almacenes de datos, visite este recurso.
Puede crear almacenes de datos con acceso basado en credenciales o acceso basado en identidades.
Cree un almacén de datos con Estudio de Azure Machine Learning.
Importante
Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se necesitan pasos de configuración adicionales para garantizar que Estudio puede acceder a los datos. Visite Aislamiento de red y privacidad para más información sobre los pasos de configuración adecuados.
- Inicie sesión en Azure Machine Learning Studio.
- Seleccione Datos en el panel izquierdo en Activos.
- En la parte superior, seleccione Almacenes de datos.
- Seleccione +Crear.
- Rellene el formulario para crear y registrar un nuevo almacén de datos. El formulario se actualiza de forma inteligente según las selecciones de tipo de Azure Storage y de autenticación. Para más información sobre dónde encontrar las credenciales de autenticación necesarias para rellenar este formulario, visite la sección sobre permisos y acceso al almacenamiento.
En este recorte de pantalla se muestra el panel de creación del almacén de datos de blobs de Azure:
Creación de recursos de datos
Después de crear un almacén de datos, cree un conjunto de datos para interactuar con los datos. Los conjuntos de datos empaquetan los datos en un objeto consumible que se evalúa de forma diferida para tareas de aprendizaje automático, como las de entrenamiento. Visite Creación de conjuntos de datos de Azure Machine Learning para más información sobre los conjuntos de datos.
Los conjuntos de datos tienen dos tipos: FileDataset y TabularDataset. Los objetos FileDataset crean referencias a uno o varios archivos, o direcciones URL públicas. Los objetos TabularDataset representan los datos en formato tabular. Puede crear instancias de TabularDataset a partir de
- .csv
- .tsv
- .parquet
- archivos .json y de resultados de consultas SQL.
Los siguientes pasos describen cómo crear un conjunto de datos en el estudio de Azure Machine Learning.
Nota
Los conjuntos de datos creados mediante Azure Machine Learning Studio se registran automáticamente en el área de trabajo.
En Recursos en el panel de navegación izquierdo, seleccione Datos. En la pestaña Recursos de datos, seleccione Crear
Asigne un nombre al recurso de datos y una descripción opcional. Después, en Tipo, seleccione un tipo de conjunto de datos, como Archivo o Tabular.
Después se abre el panel Origen de datos, como se muestra en este recorte de pantalla:
Tiene otras opciones para el origen de datos. Para los datos ya almacenados en Azure, elija "Desde Azure Storage". Para cargar datos desde la unidad local, elija "Desde archivos locales". Para los datos almacenados en una ubicación web pública, elija "Desde archivos web". También puede crear un recurso de datos desde una base de datos SQL o desde Azure Open Datasets.
En el paso de selección de archivos, seleccione la ubicación donde Azure debe almacenar los datos y los archivos de datos que quiere usar.
- Habilite la omisión de la validación si los datos están en una red virtual. Obtenga más información acerca del aislamiento de red virtual y la privacidad.
Siga los pasos para establecer la configuración y el esquema de análisis de datos para el recurso de datos. Los valores se rellenan previamente en función del tipo de archivo y puede configurar aún más los valores antes de crear el recurso de datos.
Una vez que llegue al paso Revisar, seleccione Crear en la última página
Versión preliminar y perfil de los datos
Después de crear el conjunto de datos, compruebe que puede ver la vista previa y el perfil en Estudio:
- Inicie sesión en Azure Machine Learning Studio.
- En Recursos en el panel de navegación izquierdo, seleccione Datos.
- Seleccione el nombre del conjunto de datos que quiere ver.
- Seleccione la pestaña Explore (Explorar).
- Seleccione la pestaña Vista previa.
- Seleccione la pestaña Perfil.
Puede usar estadísticas de resumen en el conjunto de datos para comprobar si está listo para ML. Para las columnas no numéricas, estas estadísticas solo incluyen estadísticas básicas, como mínimo, máximo y recuento de errores. Las columnas numéricas, también ofrecen momentos estadísticos y cuantiles estimados.
El perfil de datos del conjunto de datos de Azure Machine Learning incluye lo siguiente:
Nota:
Aparecen entradas en blanco para las características con tipos irrelevantes.
Estadísticas | Descripción |
---|---|
Característica | Nombre de columna resumido |
Perfil | Visualización en línea según el tipo inferido. Las cadenas, los valores booleanos y las fechas tienen recuentos de valores. Los decimales (numéricos) tienen histogramas aproximados. Estas visualizaciones ofrecen una comprensión rápida de la distribución de los datos |
Distribución de tipo | Recuento de valor en línea de los tipos dentro de una columna. Los valores null son su propio tipo, por lo que esta visualización puede detectar los valores impares o que faltan |
Tipo | Tipo de columna inferido. Los valores posibles incluyen: cadenas, valores booleanos, fechas y decimales |
Min | Valor mínimo de la columna. Aparecen entradas en blanco para características cuyo tipo no tiene una ordenación inherente (por ejemplo, los valores booleanos) |
Max | Valor máximo de la columna. |
Count | Número total de entradas que faltan y que no faltan en la columna |
No falta el recuento | Número de entradas de la columna que no faltan. Las cadenas vacías y los errores se tratan como valores, por lo que no contribuirán a la lista de "recuento de entradas que no faltan". |
Cuantiles | Valores aproximados en cada cuantil para proporcionar una idea de la distribución de los datos |
Promedio | Media aritmética o promedio de la columna |
Desviación estándar | Medida de la cantidad de dispersión o variación de los datos de esta columna |
Desviación | Medida de la diferencia de los datos de esta columna con respecto a su valor medio |
Asimetría | Mide la diferencia entre los datos de esta columna y una distribución normal |
Curtosis | Mide el grado de "final" de los datos de esta columna, en comparación con una distribución normal |
Permisos y acceso a Storage
Para garantizar una conexión segura al servicio Azure Storage, Azure Machine Learning exige que tenga permiso para acceder al almacenamiento de datos correspondiente. Este acceso depende de las credenciales de autenticación usadas para registrar el almacén de datos.
Virtual network
Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se necesitan pasos de configuración adicionales para garantizar que Azure Machine Learning tenga acceso a los datos. Consulte Uso de Azure Machine Learning Studio en una red virtual para asegurarse de que se aplican los pasos de configuración adecuados al crear y registrar el almacén de datos.
Validación de acceso
Advertencia
No se admite el acceso entre inquilinos a las cuentas de almacenamiento. Si en el escenario se necesita acceso entre inquilinos, póngase en contacto con el alias del equipo de soporte técnico de datos de Azure Machine Learning en amldatasupport@microsoft.com para obtener ayuda con una solución de código personalizada.
Como parte del proceso de creación y registro del almacén de datos inicial, Azure Machine Learning valida automáticamente que el servicio de almacenamiento subyacente exista y que la entidad de seguridad proporcionada por el usuario (nombre de usuario, entidad de servicio o token de SAS) tenga acceso al almacenamiento especificado.
Después de crear el almacén de datos, esta validación solo se realiza para los métodos que necesitan acceso al contenedor de almacenamiento subyacente. La validación no se realiza cada vez que se recuperan los objetos de almacén de datos. Por ejemplo, la validación se produce cuando descarga archivos del almacén de datos. Pero si solo quiere cambiar el almacén de datos predeterminado, no se produce la validación.
Para autenticar el acceso al servicio de almacenamiento subyacente, proporcione la clave de cuenta, tokens de firmas de acceso compartido (SAS) o una entidad de servicio, en función del tipo de almacén de datos que quiere crear. La matriz de tipo de almacenamiento muestra los tipos de autenticación admitidos que corresponden a cada tipo de almacén de datos.
Puede encontrar la clave de cuenta, el token de SAS y la información de la entidad de servicio en Azure Portal.
A fin de obtener una clave de cuenta para la autenticación, seleccione Cuentas de almacenamiento en el panel de la izquierda y elija la cuenta de almacenamiento que quiera registrar
- La página Información general proporciona información como el nombre de la cuenta, el contenedor y el nombre del recurso compartido de archivos.
- Expanda el nodo Seguridad y redes en el panel de navegación de la izquierda
- Seleccione Claves de acceso.
- Los valores de clave disponibles sirven como valores de clave de cuenta
A fin de obtener un token de SAS para la autenticación, seleccione Cuentas de almacenamiento en el panel de la izquierda y elija la cuenta de almacenamiento que quiera
- Para obtener un valor de clave de acceso, expanda el nodo Seguridad y redes en el panel de navegación de la izquierda
- Seleccione Firma de acceso compartido
- Complete el proceso para generar el valor de SAS
A fin de usar una entidad de servicio para la autenticación, vaya a Registros de aplicaciones y seleccione la aplicación que quiere usar.
- Su página Información general correspondiente contiene la información necesaria, como el id. de inquilino y de cliente.
Importante
- Para cambiar las claves de acceso de una cuenta de Azure Storage (clave de cuenta o token de SAS), asegúrese de sincronizar las credenciales nuevas con el área de trabajo y los almacenes de datos conectados a ella. Para obtener más información, visite Sincronización de las credenciales actualizadas.
- Si anula el registro y vuelve a registrar un almacén de datos con el mismo nombre y se produce un error en el nuevo registro, es posible que la instancia de Azure Key Vault del área de trabajo no tenga habilitada la eliminación temporal. De manera predeterminada, la eliminación temporal está habilitada para la instancia del almacén de claves que creó el área de trabajo, pero podría no estar habilitada si usó un almacén de claves existente, o si creó el área de trabajo antes de octubre de 2020. Para más información sobre cómo habilitar la eliminación temporal, visite Activación de la eliminación temporal para un almacén de claves existente.
Permisos
En el caso del contenedor de blobs de Azure y el almacenamiento de Azure Data Lake Gen 2, asegúrese de que las credenciales de autenticación tengan acceso de Lector de datos de Storage Blob. Obtenga más información sobre el Lector de datos de Storage Blob. De manera predeterminada, un token de SAS de cuenta no tiene ningún permiso.
Para el acceso de lectura de datos, las credenciales de autenticación deben tener un número mínimo de permisos de enumeración y lectura para contenedores y objetos.
Para el acceso de escritura de datos, también se necesitan los permisos de escritura y agregación.
Entrenamiento con conjuntos de datos
Use sus conjuntos de datos en los experimentos de aprendizaje automático para entrenar modelos de aprendizaje automático. Obtenga más información sobre cómo entrenar con conjuntos de datos.
Pasos siguientes
Para obtener más ejemplos de entrenamiento de conjuntos de datos, consulte los cuadernos de ejemplo.