Sala limpia y Análisis de datos de varias partes
La informática confidencial de Azure (ACC) proporciona una base para las soluciones que permiten a varias partes colaborar en los datos. Hay varios enfoques para las soluciones y un ecosistema creciente de asociados para ayudar a permitir que los clientes, investigadores, científicos de datos y proveedores de datos de Azure colaboren en los datos a la vez que conservan la privacidad. En esta introducción se describen algunos de los enfoques y las soluciones existentes que se pueden usar, todas ellas ejecutándose en ACC.
¿Cuáles son las protecciones de datos y modelos?
Las soluciones de sala limpia de datos suelen ofrecer un medio para que uno o varios proveedores de datos combinen datos para su procesamiento. Normalmente hay un código, consultas o modelos acordados que han creado los proveedores u otro participante, como un investigador o proveedor de soluciones. En muchos casos, los datos se pueden considerar confidenciales y no deseados para compartir directamente a otros participantes, ya sea a otro proveedor de datos, un investigador o proveedor de soluciones. Para ayudar a garantizar la seguridad y la privacidad de los datos y los modelos usados en las salas de limpieza de datos, la informática confidencial se puede usar para comprobar criptográficamente que los participantes no tienen acceso a los datos o modelos, incluido durante el procesamiento. Mediante el uso de ACC, las soluciones pueden aportar protecciones a los datos y la dirección IP del modelo del operador en la nube, el proveedor de soluciones y los participantes de colaboración de datos.
¿Cuáles son algunos ejemplos de casos de uso del sector?
Con ACC, los clientes y asociados crean la privacidad para conservar soluciones de análisis de datos de varias partes, a veces denominadas "salas de limpieza confidenciales", tanto las nuevas soluciones netas como confidenciales, y las soluciones de sala limpia existentes se convierten en confidenciales con ACC.
- Royal Bank of Canada - Solución de sala limpia virtual que combina datos comerciales con datos bancarios con el fin de proporcionar ofertas personalizadas, mediante máquinas virtuales de computación confidencial de Azure y CA de Azure SQL en enclaves seguros.
- Scotiabank: demostró el uso de inteligencia artificial en flujos de dinero entre bancos para identificar el blanqueo de dinero para marcar instancias de trata de personas, mediante la informática confidencial de Azure y un asociado de solución, Opaque.
- Novartis Biome: usó una solución asociada de BeeKeeperAI que se ejecuta en ACC para encontrar candidatos para ensayos clínicos para enfermedades raras.
- Proveedores de pagos líderes que conectan datos entre bancos para detectar fraudes y anomalías.
- Servicios de análisis de datos y soluciones de sala limpia que usan ACC para aumentar la protección de datos y satisfacer las necesidades de cumplimiento de los clientes de la UE y la regulación de privacidad.
¿Por qué informática confidencial?
Las salas de limpieza de datos no son un concepto nuevo, pero con los avances en la informática confidencial, hay más oportunidades para aprovechar la escala de la nube con conjuntos de datos más amplios, proteger la dirección IP de los modelos de inteligencia artificial y la capacidad de cumplir mejor las normativas de privacidad de los datos. En casos anteriores, es posible que algunos datos no sean accesibles por motivos como
- Desventajas competitivas o normativas que impiden el uso compartido de datos en empresas del sector.
- Anonimización que reduce la calidad de la información sobre los datos o es demasiado caro y lento.
- Los datos que se enlazan a determinadas ubicaciones y se abstienen del procesamiento en la nube debido a problemas de seguridad.
- Los procesos legales caros o largos cubren la responsabilidad si los datos se exponen o se abusa de ellos
Estas realidades podrían dar lugar a conjuntos de datos incompletos o ineficaces que dan lugar a información más débil o más tiempo necesario en el entrenamiento y el uso de modelos de IA.
¿Cuáles son las consideraciones al crear una solución de sala limpia?
Análisis por lotes frente a canalizaciones de datos en tiempo real: se debe tener en cuenta el tamaño de los conjuntos de datos y la velocidad de la información al diseñar o usar una solución de sala limpia. Cuando los datos están disponibles "sin conexión", se pueden cargar en un entorno de proceso comprobado y protegido para el procesamiento analítico de datos en grandes partes de datos, si no en todo el conjunto de datos. Este análisis por lotes permite evaluar grandes conjuntos de datos con modelos y algoritmos que no se espera que proporcionen un resultado inmediato. Por ejemplo, el análisis por lotes funciona bien al realizar la inferencia de ML en millones de registros de salud para encontrar a los mejores candidatos para un ensayo clínico. Otras soluciones requieren información en tiempo real sobre los datos, como cuando los algoritmos y los modelos tienen como objetivo identificar el fraude en transacciones casi en tiempo real entre varias entidades.
Participación de confianza cero: Un diferenciador importante en las salas limpias confidenciales es la capacidad de no tener ninguna parte implicada de confianza, desde todos los proveedores de datos, desarrolladores de código y modelos, proveedores de soluciones y administradores de operadores de infraestructura. Se pueden proporcionar soluciones en las que tanto los datos como la dirección IP del modelo se pueden proteger de todas las partes. Al incorporar o compilar una solución, los participantes deben tener en cuenta lo que se desea proteger y de quién proteger cada uno de los datos, modelos y código.
Aprendizaje federado: el aprendizaje federado implica crear o usar una solución, mientras que los modelos procesan en el inquilino del propietario de los datos y la información se agregan en un inquilino central. En algunos casos, los modelos se pueden ejecutar incluso en datos fuera de Azure, con la agregación de modelos que todavía se produce en Azure. Muchas veces, el aprendizaje federado recorre en iteración los datos muchas veces a medida que los parámetros del modelo mejoran una vez agregada la información. Los costes de iteración y la calidad del modelo deben tenerse en cuenta en la solución y los resultados esperados.
Residencia y orígenes de datos: los clientes tienen datos almacenados en varias nubes y locales. La colaboración puede incluir datos y modelos de diferentes orígenes. Las soluciones de sala limpia pueden facilitar los datos y los modelos procedentes de Azure desde estas otras ubicaciones. Cuando los datos no se pueden mover a Azure desde un almacén de datos local, algunas soluciones de espacio limpio se pueden ejecutar en el sitio donde residen los datos. La administración y las directivas se pueden usar mediante un proveedor de soluciones común, siempre que esté disponible.
La integridad del código y los libros de contabilidad confidenciales: con la tecnología de libro de contabilidad distribuido (DLT) que se ejecuta en la informática confidencial de Azure, se pueden crear soluciones que se ejecutan en una red entre organizaciones. La lógica de código y las reglas analíticas solo se pueden agregar cuando hay consenso entre los distintos participantes. Todas las actualizaciones del código se registran para la auditoría mediante el registro de prueba de alteraciones habilitado con la informática confidencial de Azure.
¿Qué opciones hay para empezar?
Ofertas de plataforma ACC que ayudan a habilitar las salas limpias confidenciales
Remánguese y cree una solución de sala limpia de datos directamente en estas ofertas del servicio de informática confidencial.
Los contenedores confidenciales en máquinas virtuales de Azure Container Instances (ACI) e Intel SGX con enclaves de aplicación proporcionan una solución de contenedor para crear soluciones de sala limpia confidencial.
Las máquinas virtuales confidenciales (VM) proporcionar una plataforma de máquina virtual para soluciones de sala limpia confidencial.
El CA de Azure SQL en enclaves seguros proporciona un servicio de plataforma para cifrar datos y consultas en SQL que se pueden usar en análisis de datos de varias partes y salas limpias confidenciales.
El Marco de trabajo del Consorcio de Computación Confidencial es un marco de código abierto para crear servicios con estado de alta disponibilidad que usan un proceso centralizado para facilitar el uso y el rendimiento, al tiempo que proporciona confianza descentralizada. Permite que varias partes ejecuten un proceso auditable a través de datos confidenciales sin confiar entre sí ni en un operador con privilegios.
Soluciones de asociados de ACC que habilitan las salas limpias confidenciales
Utilice un asociado que haya creado una solución de análisis de datos de varias partes sobre la plataforma informática confidencial de Azure.
- Anjuna proporciona una plataforma de informática confidencial para habilitar varios casos de uso, como salas limpias seguras, para que las organizaciones compartan datos para el análisis conjunto, como calcular puntuaciones de riesgo de crédito o desarrollar modelos de aprendizaje automático, sin exponer información confidencial.
- BeeKeeperAI permite la inteligencia artificial sanitaria a través de una plataforma de colaboración segura para propietarios de algoritmos y administradores de datos. BeeKeeperAI™ utiliza análisis que preservan la privacidad en fuentes multiinstitucionales de datos protegidos en un entorno de informática confidencial. La solución admite cifrado de un extremo a otro, enclaves informáticos seguros y los últimos procesadores habilitados para SGX de Intel para proteger la IP de datos y algoritmos.
- Decentriq proporciona salas limpias de datos SaaS basadas en la informática confidencial que permiten la colaboración segura de datos sin compartir datos. Las salas limpias de ciencia de datos permiten análisis flexibles de varias partes y las salas limpias sin código para medios y publicidad permiten la activación y el análisis de audiencias compatibles en función de los datos de usuario de primera entidad. Las salas limpias confidenciales se describen con más detalle en este artículo en el blog de Microsoft.
- Fortanix ofrece una plataforma informática confidencial que puede permitir la IA confidencial, incluyendo la colaboración de múltiples organizaciones para el análisis de varias partes.
- Habu ofrece una plataforma interoperable de sala limpia de datos que permite a las empresas desbloquear la inteligencia colaborativa de una manera inteligente, segura, escalable y sencilla. Habu conecta datos descentralizados entre departamentos, asociados, clientes y proveedores para mejorar la colaboración, la toma de decisiones y los resultados.
- Mithril Security proporciona herramientas para ayudar a los proveedores de SaaS a proporcionar modelos de IA dentro de enclaves seguros y ofrecer un nivel local de seguridad y control a los propietarios de los datos. Los propietarios de los datos pueden utilizar sus soluciones de IA de SaaS sin dejar de cumplir la normativa y manteniendo el control de sus datos.
- Opaque proporciona una plataforma informática confidencial para el análisis colaborativo y la IA, que ofrece la capacidad de realizar análisis escalables colaborativos al tiempo que protege los datos de un extremo a otro y permite a las organizaciones cumplir con los mandatos legales y normativos.