Administración de datos

Artículo
10/16/2024

Obtenga información sobre cómo administrar el acceso a los datos y cómo autenticarse en Azure Machine Learning.

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

Importante

Este artículo está dirigido a los administradores de Azure que quieran crear la infraestructura necesaria para una solución de Azure Machine Learning.

Autenticación de datos basada en credenciales

En general, la autenticación de datos basada en credenciales conlleva estas comprobaciones:

Compruebe que el usuario que accede a los datos del almacén de datos basado en credenciales tiene asignado un rol con el control de acceso basado en rol (RBAC) que contiene Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action
- Este permiso es necesario para recuperar credenciales del almacén de datos para el usuario.
- Roles integrados que ya contienen este permiso:
  - Colaborador
  - Desarrollador de Azure AI
  - Científico de datos de Azure Machine Learning
  - Como alternativa, si se aplica un rol personalizado, este permiso debe agregarse a ese rol personalizado
- Debe saber que usuario específico quiere acceder a los datos. Un usuario específico puede ser un usuario real con una identidad de usuario. También puede ser un equipo con identidad administrada de proceso (MSI). Para obtener más información, visite la sección Escenarios y opciones de autenticación para determinar la identidad que necesita el permiso agregado.
¿La credencial almacenada (entidad de servicio, clave de cuenta o token de firma de acceso compartido) tiene acceso al recurso de datos?

Autenticación de datos basada en identidad

En general, la autenticación de datos basada en identidad conlleva estas comprobaciones:

¿Qué usuario quiere acceder a los recursos?
- Hay disponibles diferentes tipos de autenticación, en función del contexto en el momento en que se accede a los datos. Por ejemplo:
  - Identidad del usuario
  - Identidad administrada de proceso
  - Identidad administrada del área de trabajo
- Los trabajos, incluida la opción Generate Profile de conjuntos de datos, se ejecutan en un recurso de proceso de su suscripción y acceden a los datos desde esa ubicación. La identidad administrada de proceso necesita permiso para acceder al recurso de almacenamiento, en lugar de la identidad del usuario que envió el trabajo.
- Para la autenticación basada en una identidad de usuario, debe saber qué usuario específico intentó acceder al recurso de almacenamiento. Para obtener más información sobre la autenticación de usuario, visite Autenticación para Azure Machine Learning. Para más información sobre la autenticación de nivel de servicio, visite Autenticación entre Azure Machine Learning y otros servicios.
¿Tiene este usuario permiso de lectura para el recurso?
- ¿La identidad del usuario o la identidad administrada de proceso tiene los permisos necesarios para ese recurso de almacenamiento? Los permisos se conceden mediante RBAC de Azure.
- El Lector de la cuenta de almacenamiento lee los metadatos del almacenamiento.
- El lector de datos de Storage Blob lee y enumera los contenedores y blobs de almacenamiento.
- El Lector con privilegios de datos de archivos de Storage vuelve a enumerar archivos y directorios en recursos compartidos de archivos de Azure.
- Para más información, visite roles integrados de Azure para el almacenamiento.
¿Tiene este usuario permiso de escritura para el recurso?
- ¿La identidad del usuario o la identidad administrada de proceso tiene los permisos necesarios para ese recurso de almacenamiento? Los permisos se conceden mediante RBAC de Azure.
- El Lector de la cuenta de almacenamiento lee los metadatos del almacenamiento.
- El colaborador de datos de Storage Blob lee, escribe y elimina contenedores y blobs de Azure Storage.
- El Colaborador con privilegios de datos de archivos de Storage lee, escribe, elimina y modifica listas de control de acceso en archivos y directorios de recursos compartidos de archivos de Azure.
- Para más información, visite roles integrados de Azure para el almacenamiento.

Otras comprobaciones generales para la autenticación

¿Qué accederá exactamente al recurso?
- Usuario: ¿la dirección IP del cliente está en el intervalo de red virtual o subred?
- Área de trabajo: ¿es el área de trabajo pública o tiene un punto de conexión privado en una red virtual o subred?
- Almacenamiento: ¿el almacenamiento permite el acceso público o restringe el acceso mediante un punto de conexión de servicio o un punto de conexión privado?
¿Cuál es la operación planeada?
- Control de Azure Machine Learning
  - Crear
  - Leer
  - Actualizar
  - Operaciones de eliminación (CRUD) en un almacén o conjunto de datos.
- Las operaciones de archivo en los recursos de datos del Estudio de Azure Machine Learning requieren esta operación de RBAC: Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
- Las llamadas de acceso a datos (por ejemplo, versión preliminar o esquema) van al almacenamiento subyacente y requieren permisos adicionales.
¿Esta operación se ejecutará en recursos de proceso de suscripción de Azure o recursos hospedados en una suscripción de Microsoft?
- Todas las llamadas a los servicios de almacén de datos y conjunto de datos (excepto la opción Generate Profile) usan recursos hospedados en una suscripción de Microsoft para ejecutar las operaciones.
- Los trabajos, incluida la opción Generate Profile de conjuntos de datos, se ejecutan en un recurso de proceso de su suscripción y acceden a los datos desde esa ubicación. La identidad de proceso necesita permiso para el recurso de almacenamiento, en lugar de la identidad del usuario que envió el trabajo.

En este diagrama se muestra el flujo general de una llamada de acceso a datos. Aquí, un usuario intenta realizar una llamada de acceso a datos a través de un área de trabajo de Machine Learning, sin usar un recurso de proceso.

Diagrama del flujo lógico al acceder a los datos.

Escenarios y opciones de autenticación

En esta tabla se enumeran las identidades que se van a usar para escenarios específicos:

Configuración	Máquina virtual local o de cuadernos del SDK	Trabajo	Vista previa del conjunto de datos	Examen de almacén de datos
Credenciales + MSI de área de trabajo	Credential:	Credential:	MSI del área de trabajo	Credencial (solo clave de cuenta y token de firma de acceso compartido)
Sin credenciales + MSI de área de trabajo	Identidad del usuario/MSI de proceso	Identidad del usuario/MSI de proceso	MSI del área de trabajo	Identidad del usuario
Credenciales + sin MSI de área de trabajo	Credential:	Credential:	Credenciales (no compatible con la versión preliminar del conjunto de datos en la red privada)	Credencial (solo clave de cuenta y token de firma de acceso compartido)
Sin credenciales + sin MSI de área de trabajo	Identidad del usuario/MSI de proceso	Identidad del usuario/MSI de proceso	Identidad del usuario	Identidad del usuario

En el caso del SDK V1, la autenticación de datos en un trabajo siempre usa MSI de proceso. Para SDK V2, la autenticación de datos en un trabajo depende de la configuración del trabajo. Puede ser identidad de usuario o MSI de cálculo, según la configuración de ese trabajo.

Sugerencia

Para acceder a datos desde fuera de Machine Learning, por ejemplo, con el Explorador de Azure Storage, ese acceso probablemente se basa en la identidad del usuario. Para obtener información específica, revise la documentación de la herramienta o el servicio que planea usar. Para más información sobre cómo funciona Machine Learning con datos, visite Configuración de la autenticación entre Azure Machine Learning y otros servicios.

Requisitos específicos de red virtual

Esta información le ayuda a configurar la autenticación de datos desde un área de trabajo de Machine Learning para acceder a los datos detrás de una red virtual.

Incorporación de permisos a una cuenta de almacenamiento a la identidad administrada del área de trabajo de Machine Learning

Al usar una cuenta de almacenamiento desde el estudio, si desea ver la versión preliminar del conjunto de datos, debe habilitar Usar la identidad administrada del área de trabajo para la versión preliminar de datos y la generación de perfiles en Estudio de Azure Machine Learning en la configuración del almacén de datos. A continuación, agregue estos roles de Azure RBAC de la cuenta de almacenamiento a la identidad administrada del área de trabajo:

Lector de datos de blob
Si la cuenta de almacenamiento usa un punto de conexión privado para conectarse a la red virtual, debe conceder a la identidad administrada el rol Lector para el punto de conexión privado de la cuenta de almacenamiento.

Para más información, visite Uso de Azure Machine Learning Studio en una red virtual de Azure.

En estas secciones se explican las limitaciones del uso de una cuenta de almacenamiento, con el área de trabajo, en una red virtual.

Protección de la comunicación con la cuenta de almacenamiento

Para proteger la comunicación entre Machine Learning y las cuentas de almacenamiento, configure el almacenamiento para conceder acceso a servicios de Azure de confianza.

Firewall de Azure Storage

Para una cuenta de almacenamiento situada detrás de una red virtual, el firewall de almacenamiento normalmente puede permitir que su cliente se conecte directamente a través de Internet. Sin embargo, al usar estudio, el cliente no se conecta a la cuenta de almacenamiento. Machine Learning Service que realiza la solicitud se conecta a la cuenta de almacenamiento. La dirección IP del servicio no está documentada y cambia con frecuencia. Habilitar el firewall de almacenamiento no permite que el estudio acceda a la cuenta de almacenamiento en una configuración de red virtual.

Tipo de punto de conexión de Azure Storage

Cuando el área de trabajo usa un punto de conexión privado y la cuenta de almacenamiento también está en la red virtual, surgen unos requisitos de validación adicionales al usar estudio.

Si la cuenta de almacenamiento usa un punto de conexión de servicio, el punto de conexión privado del área de trabajo y el punto de conexión del servicio de almacenamiento deben estar en la misma subred que la red virtual.
Si la cuenta de almacenamiento usa un punto de conexión privado, el punto de conexión privado del área de trabajo y el punto de conexión privado de almacenamiento deben estar en la misma subred que la red virtual. En este caso, pueden estar en subredes diferentes.

Azure Data Lake Storage Gen1

Si usa Azure Data Lake Storage Gen1 como almacén de datos, solo puede utilizar listas de control de acceso de estilo POSIX. Puede asignar el acceso de la identidad administrada del área de trabajo a los recursos como cualquier otra entidad de seguridad. Para más información, visite Control de acceso en Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Si usa Azure Data Lake Storage Gen2, como almacén de datos, puede usar listas de control de acceso de Azure RBAC y de estilo POSIX para controlar el acceso a los datos dentro de una red virtual.

Para usar RBAC de Azure: siga los pasos descritos en Almacén de datos: Cuenta de Azure Storage. Data Lake Storage Gen2 se basa en Azure Storage, por lo que se aplican los mismos pasos al usar Azure RBAC.
Para usar las listas de control de acceso: el acceso de la identidad administrada del área de trabajo se puede asignar como cualquier otra entidad de seguridad. Para obtener más información, visite listas de control de acceso en archivos y directorios.

Pasos siguientes

Para más información sobre cómo habilitar Estudio en una red, vea Uso de Estudio de Azure Machine Learning en una red virtual de Azure.

Compartir vía