En este artículo se describe un entorno de investigación seguro que permite a los investigadores acceder a datos confidenciales bajo un alto nivel de control y protección. Este artículo se aplica a las organizaciones que deben cumplir el cumplimiento normativo u otros requisitos de seguridad estrictos.
Arquitectura
Descargue un archivo Visio de esta arquitectura.
Flujo de datos
El siguiente flujo de datos o corresponde al diagrama anterior:
Los propietarios de datos cargan los conjuntos de datos en una cuenta pública de almacenamiento de blobs. Usan claves administradas por Microsoft para cifrar los datos.
Azure Data Factory usa un desencadenador que comienza a copiar el conjunto de datos cargado en una ubicación específica, o importar ruta de acceso, en otra cuenta de almacenamiento que tenga controles de seguridad. Solo puede acceder a la cuenta de almacenamiento a través de un punto de conexión privado. Una entidad de servicio que tenga permisos limitados también puede acceder a la cuenta. Data Factory elimina la copia original, lo que hace que el conjunto de datos sea inmutable.
Los investigadores acceden al entorno seguro a través de una aplicación de streaming mediante Azure Virtual Desktop como jump box con privilegios.
El conjunto de datos de la cuenta de almacenamiento seguro se presenta a las máquinas virtuales (VM) de ciencia de datos que se aprovisionan en un entorno de red seguro para el trabajo de investigación. Gran parte de la preparación de los datos se realiza en esas VM.
El entorno seguro tiene Azure Machine Learning y Azure Synapse Analytics, que puede acceder al conjunto de datos a través de un punto de conexión privado. Puede usar estas plataformas para entrenar, implementar, automatizar y administrar modelos de aprendizaje automático o usar Azure Synapse Analytics. En este momento, puede crear modelos que cumplan las directrices normativas. Desidentificar todos los datos del modelo quitando la información personal.
Los modelos o datos desidentificados se guardan en una ubicación independiente en el almacenamiento seguro o en la ruta de acceso de exportación. Al agregar nuevos datos a la ruta de exportación, se desencadena una aplicación lógica. En esta arquitectura, la aplicación lógica está fuera del entorno seguro porque no se envía ningún dato a la aplicación lógica. Su única función es enviar notificaciones e iniciar el proceso de aprobación manual.
La aplicación lógica inicia un proceso de aprobación solicitando una revisión de los datos que se ponen en cola para exportarse. Los revisores manuales ayudan a garantizar que los datos confidenciales no se exportan. Después del proceso de revisión, los datos se aprueban o se deniegan.
Nota:
Si no se requiere un paso de aprobación en la filtración, puede omitir el paso de la aplicación lógica.
Si se aprueban los datos anónimos, se envían a la instancia de Data Factory.
Data Factory mueve los datos a la cuenta de almacenamiento pública en un contenedor independiente para permitir que los investigadores externos accedan a sus datos y modelos exportados. Como alternativa, se puede aprovisionar otra cuenta de almacenamiento en un entorno de seguridad inferior.
Componentes
Esta arquitectura consta de varios servicios de Azure que escalan los recursos según sus necesidades. En las secciones siguientes se describen estos servicios y sus roles. Para obtener vínculos a la documentación del producto para comenzar a trabajar con estos servicios, consulte Pasos siguientes.
Componentes principales de la carga de trabajo
Estos son los componentes principales que trasladan los datos de investigación y los procesan.
Las máquinas virtuales de ciencia de datos de Azure son máquinas virtuales que se configuran con herramientas para el análisis de datos y el aprendizaje automático. Use la máquina virtual de ciencia de datos cuando necesite paquetes o herramientas específicos, como MATLAB o SAS, que los entornos de plataforma como servicio (PaaS) no pueden admitir. Para mayor seguridad y facilidad de uso, elija Machine Learning y otras opciones de PaaS cuando se admitan.
Machine Learning es un servicio que puede usar para entrenar, implementar, automatizar y administrar modelos de aprendizaje automático. También puede usarlo para administrar la asignación y el uso de recursos de proceso de aprendizaje automático. Machine Learning es la herramienta preferida para cuadernos de Jupyter Notebook para el desarrollo.
El proceso de Machine Learning es un clúster de nodos que puede usar para entrenar y probar modelos de aprendizaje automático e inteligencia artificial. El proceso se asigna a petición en función de una opción de escalado automático. Puede implementar Visual Studio Code (VS Code) como una aplicación de streaming desde Virtual Desktop y conectarla al proceso de Machine Learning para un entorno de desarrollo alternativo.
Azure Blob Storage tiene dos instancias. La instancia pública almacena temporalmente los datos que cargan los propietarios de datos. La instancia pública también almacena datos desidentificados después de modela los datos en un contenedor independiente. La segunda instancia es privada. Recibe los conjuntos de datos de entrenamiento y prueba de Machine Learning que usan los scripts de entrenamiento. El almacenamiento se monta como una unidad virtual en cada nodo de un clúster de proceso de Machine Learning.
Data Factory mueve automáticamente los datos entre las cuentas de almacenamiento de diferentes niveles de seguridad para ayudar a garantizar la separación de las tareas.
Azure Synapse Analytics es una herramienta analítica para macrodatos y canalizaciones para la integración y extracción, transformación y carga de cargas de trabajo. Azure Synapse Analytics también es un servicio preferido para ejecutar cargas de trabajo de Apache Spark.
Virtual Desktop es un servicio que puede usar como jump box para obtener acceso a los recursos del entorno seguro con aplicaciones de streaming y un escritorio completo, según sea necesario. Como alternativa, puede usar Azure Bastion, pero debe comprender claramente las diferencias de control de seguridad entre las dos opciones. Virtual Desktop tiene algunas ventajas, entre las que se incluyen:
- La capacidad de transmitir una aplicación como VS Code para ejecutar cuadernos en los recursos de proceso de aprendizaje automático.
- La capacidad de limitar las capturas de copia, pegado y pantalla.
- Compatibilidad con la autenticación de Microsoft Entra en máquinas virtuales de ciencia de datos.
Azure Logic Apps proporciona flujos de trabajo automatizados de código bajo para desarrollar las partes del desencadenador y la versión del proceso de aprobación manual.
Componentes de administración de posición
Estos componentes supervisan continuamente la posición de la carga de trabajo y su entorno. Su propósito es detectar y mitigar los riesgos en cuanto se detecten.
Microsoft Defender for Cloud es un servicio que puede usar para evaluar la posición de seguridad general de la implementación y proporcionar un mecanismo de atestación para el cumplimiento normativo. Puede detectar problemas al principio, en lugar de al realizar auditorías o evaluaciones. Use características para realizar un seguimiento del progreso, como la puntuación de seguridad y la puntuación de cumplimiento. Estas puntuaciones son herramientas importantes que ayudan a comprobar el cumplimiento.
Microsoft Sentinel es una solución de administración de eventos e información de seguridad y una solución de orquestación de seguridad, automatización y respuesta. Se pueden ver de forma centralizada los registros y alertas de varios orígenes y aprovechar las ventajas de los análisis avanzados de la IA y la seguridad para detectar amenazas buscarlas, evitarlas y responder a ellas. Esta funcionalidad proporciona información de seguridad valiosa para ayudar a garantizar que el tráfico y las actividades asociadas al área de trabajo cumplan sus expectativas.
Azure Monitor proporciona observabilidad en todo el entorno. Vea métricas, registros de actividad y registros de diagnóstico de la mayoría de los recursos de Azure sin una configuración agregada. Las herramientas de administración, como las de Defender for Cloud, también insertan datos de registro en Azure Monitor.
Componentes de gobernanza
- Azure Policy le ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a gran escala.
Alternativas
- Esta solución usa Data Factory para mover datos a la cuenta de almacenamiento pública en un contenedor independiente para permitir que los investigadores externos tengan acceso a sus datos y modelos exportados. Como alternativa, puede aprovisionar otra cuenta de almacenamiento en un entorno de seguridad inferior.
- Esta solución usa Virtual Desktop como jump box para obtener acceso a los recursos del entorno seguro con aplicaciones de streaming y un escritorio completo. Como alternativa, puede usar Azure Bastion, pero Virtual Desktop tiene algunas ventajas. Estas ventajas incluyen la capacidad de transmitir una aplicación, limitar las capturas de pantalla y copiar y pegar y admitir la autenticación de Microsoft Entra. También puede considerar la posibilidad de configurar una VPN de punto a sitio para el entrenamiento sin conexión localmente. Esta VPN también ayuda a reducir el costo de tener varias máquinas virtuales para estaciones de trabajo.
- Para proteger los datos en reposo, esta solución cifra todas las cuentas de Azure Storage con claves administradas por Microsoft mediante criptografía segura. Como alternativa, puede usar claves administradas por el cliente. Debe almacenar las claves en un almacén de claves administrado.
Detalles del escenario
Este escenario combina datos regulados y privados a los que los usuarios deben acceder, pero no pueden almacenar ni transmitir.
- Los científicos de datos fuera de su organización necesitan acceso total a los datos para entrenar y exportar sus modelos sin datos protegidos o propietarios que salgan del entorno.
- Debe aislar el acceso. Incluso los propietarios y custodios de datos no pueden acceder a los datos después de cargarlos en el entorno.
- Debe requerir una pista de auditoría para las exportaciones que se transfieren fuera del entorno para asegurarse de que solo se exportaron los modelos.
Posibles casos de uso
Esta arquitectura se creó originalmente para instituciones de investigación de educación superior con requisitos de la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA). Sin embargo, puede usar este diseño en cualquier sector que requiera el aislamiento de los datos con fines de investigación. Estos son algunos ejemplos:
- Sectores que procesan datos regulados por requisitos del Instituto Nacional de Estándares y Tecnología (NIST).
- Centros médicos que colaboran con investigadores internos o externos.
- Sectores bancarios y financieros.
Siguiendo las instrucciones de este artículo, puede mantener el control total de los datos de investigación, tener separación de tareas y cumplir los estrictos estándares de cumplimiento normativo. Este enfoque también facilita la colaboración entre roles clave en un entorno orientado a la investigación, como propietarios de datos, investigadores y aprobadores.
Consideraciones
Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.
Confiabilidad
La confiabilidad garantiza que la aplicación pueda cumplir los compromisos contraídos con los clientes. Para obtener más información, consulte Lista de comprobación de revisión de diseño para confiabilidad.
La mayoría de las soluciones de investigación son cargas de trabajo temporales y no es necesario que estén disponibles durante períodos prolongados. Esta arquitectura está diseñada como una implementación de una sola región con zonas de disponibilidad. Si los requisitos empresariales exigen mayor disponibilidad, replique esta arquitectura en varias regiones. Necesita otros componentes, como un equilibrador de carga global y un distribuidor, para enrutar el tráfico a todas esas regiones. Como parte de la estrategia de recuperación, use Azure VM Image Builder para capturar y crear una copia de la imagen base personalizada.
Seguridad
La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para obtener más información, consulte Lista de comprobación de revisión de diseño para seguridad.
El objetivo principal de esta arquitectura es proporcionar un entorno de investigación seguro y de confianza que limite de forma estricta la filtración de datos desde el área segura.
Seguridad de las redes
Aprovisione recursos de Azure que se usan para almacenar, probar y entrenar conjuntos de datos de investigación en un entorno seguro. Ese entorno es una red virtual de Azure que tiene reglas de grupo de seguridad de red para restringir el acceso. Estas reglas se aplican a:
Acceso entrante y saliente a la red pública de Internet y en la red virtual.
Acceso entre puertos y servicios específicos. Por ejemplo, esta arquitectura bloquea todos los intervalos de puertos, excepto los necesarios para los servicios de Azure, como Azure Monitor. Para obtener una lista completa de las etiquetas de servicio y los servicios correspondientes, consulte Etiquetas de servicio de red virtual.
El acceso desde la red virtual que tiene Virtual Desktop está restringido a los métodos de acceso aprobados en puertos específicos, pero se deniega el resto del tráfico. En comparación con este entorno, la otra red virtual que tiene Virtual Desktop es relativamente abierta.
El almacenamiento de blobs principal del entorno seguro se encuentra fuera de la red pública de Internet. Solo puede acceder a ella dentro de la red virtual a través de conexiones de punto de conexión privado y firewalls de almacenamiento. Úselo para limitar las redes desde las que los clientes pueden conectarse a recursos compartidos de archivos en Azure Files.
Esta arquitectura usa la autenticación basada en credenciales para el almacén de datos principal que se encuentra en el entorno seguro. En este caso, la información de conexión, como el identificador de suscripción y la autorización de tokens, se almacena en un almacén de claves. Otra opción consiste en crear acceso a datos basados en identidades, donde se usa la cuenta de Azure para confirmar si tiene acceso a Storage. En el escenario de acceso a datos basado en identidades, no se guardarán las credenciales de autenticación. Para obtener más información, consulte Creación de almacenes de datos.
El clúster de proceso solo puede comunicarse dentro de la red virtual mediante el ecosistema y el servicio y los puntos de conexión privados de Azure Private Link, en lugar de usar direcciones IP públicas para la comunicación. Asegúrese de habilitar Ninguna dirección IP pública. Para obtener más información sobre esta característica, que se encuentra actualmente en versión preliminar, consulte Proceso de instancia o clúster o proceso sin servidor sin dirección IP pública.
El entorno seguro usa el proceso de Machine Learning para acceder al conjunto de datos a través de un punto de conexión privado. También puede configurar Azure Firewall para controlar el acceso al proceso de Machine Learning, que reside en un área de trabajo de Aprendizaje automático. Use Azure Firewall para controlar el acceso saliente desde el proceso de Machine Learning. Para obtener más información, consulte Configuración del tráfico de red de entrada y salida.
Para obtener información sobre una de las formas en que puede proteger un entorno de Machine Learning, consulte la entrada de blog Secure Machine Learning Service environment (Protección del entorno de Machine Learning Service).
En el caso de los servicios de Azure que no se pueden configurar de forma eficaz con puntos de conexión privados o para proporcionar una inspección de paquetes con estado, considere la posibilidad de usar Azure Firewall o una aplicación virtual de red que no sea de Microsoft.
Administración de identidades
Acceda a Blob Storage a través de controles de acceso basados en roles de Azure.
Virtual Desktop admite la autenticación de Microsoft Entra en máquinas virtuales de ciencia de datos.
Data Factory usa una identidad administrada para acceder a los datos desde el almacenamiento de blobs. Las máquinas virtuales de ciencia de datos también usan la identidad administrada para las tareas de corrección.
Seguridad de los datos
Para proteger los datos en reposo, todas las cuentas de almacenamiento se cifran con claves administradas por Microsoft que usan criptografía segura.
Como alternativa, puede usar claves administradas por el cliente. Debe almacenar las claves en un almacén de claves administrado. En esta arquitectura, implementará Azure Key Vault en el entorno seguro para almacenar secretos como claves de cifrado y certificados. Los recursos de la red virtual segura acceden a Key Vault a través de un punto de conexión privado.
Consideraciones de gobernanza
Habilite Azure Policy para aplicar estándares y proporcionar una corrección automatizada para que los recursos cumplan las directivas específicas. Puede aplicar las directivas a una suscripción de proyecto o a un nivel de grupo de administración, ya sea como una sola directiva o como parte de una iniciativa normativa.
Por ejemplo, en esta arquitectura, la configuración de la máquina de Azure se aplica a todas las máquinas virtuales dentro del ámbito. La directiva puede auditar los sistemas operativos y la configuración de la máquina para las máquinas virtuales de ciencia de datos.
Imagen de la máquina virtual
Las máquinas virtuales de ciencia de datos ejecutan imágenes base personalizadas. Para compilar la imagen base, use tecnologías como VM Image Builder. Mediante vm Image Builder, puede crear una imagen repetible que pueda implementar cuando sea necesario.
Es posible que la imagen base necesite actualizaciones, como archivos binarios adicionales. Debe cargar esos archivos binarios en el almacenamiento de blobs público. Deben fluir a través del entorno seguro, al igual que la forma en que los propietarios de datos cargan los conjuntos de datos.
Optimización de costos
La optimización de costes trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la optimización de costes.
El costo de las máquinas virtuales de ciencia de datos depende de la elección de la serie de máquinas virtuales subyacentes. Dado que la carga de trabajo es temporal, se recomienda el plan de consumo para el recurso de la aplicación lógica. Use la calculadora de precios de Azure para calcular los costos en función del tamaño estimado de los recursos que necesita. Asegúrese de apagar el entorno cuando no esté en uso para ayudar a optimizar los costos y mejorar la seguridad.
Eficiencia del rendimiento
La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la eficiencia del rendimiento.
El tamaño y el tipo de las máquinas virtuales de ciencia de datos deben ser adecuados para el estilo de trabajo que realizan. Esta arquitectura está pensada para admitir un único proyecto de investigación. Para lograr escalabilidad, ajuste el tamaño y el tipo de las máquinas virtuales y elija los recursos de proceso que están disponibles para Machine Learning.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Autor principal:
- Clayton Barlow | Especialista sénior en Azure
Pasos siguientes
- ¿Cuál es la máquina virtual de ciencia de datos para Linux y Windows?
- ¿Qué es Machine Learning?
- ¿Qué son los destinos de proceso en Machine Learning?
- Introducción a Blob Storage
- Introducción al servicio Factoría de datos de Azure
- ¿Qué es Virtual Desktop?
- Documentación de Defender for Cloud
- ¿Qué es Microsoft Sentinel?
- Introducción a Azure Monitor
- ¿Qué es Azure Policy?
- Descripción de la configuración de la máquina de Azure