Что такое Чистые комнаты Azure Databricks?
В этой статье представлены Clean Rooms, функция Azure Databricks, которая использует Delta Sharing и бессерверные вычисления для создания безопасной среды, защищающей данные и конфиденциальность, где несколько сторон могут совместно работать с конфиденциальными корпоративными данными без прямого доступа к данным друг друга.
Требования
Чтобы иметь право на использование чистых помещений, необходимо:
- Учетная запись, включенная для бессерверных вычислений. См. раздел "Включить бессерверные вычисления".
- Рабочая область, активированная для каталога Unity. См. Включение рабочей области для каталога Unity.
- Delta Sharing включен для вашей мета-базыс данных каталога Unity. См. Включение Delta Sharing на хранилище метаданных.
Как работают чистые комнаты?
При создании чистой комнаты вы создадите следующее:
- Объект чистой комнаты, защищаемый в вашем хранилище метаданных каталога Unity.
- "Центральная" чистая комната, которая является изолированной эфемерной средой, управляемой Databricks.
- Защищаемый объект чистой комнаты в хранилище метаданных каталога Unity участника совместной работы.
Таблицы, тома (нетабличные данные), представления и записные книжки, которые любой из соавторов делится в чистой среде, передаются только в центральную чистую среду через Delta Sharing.
Сотрудники не могут видеть данные в таблицах, представлениях или томах других сотрудников, но они могут видеть имена столбцов и типы столбцов и запускать утвержденный код записной книжки, работающий над ресурсами данных. Код записной книжки выполняется в центральной чистой комнате. Записные книжки также могут создавать выходные таблицы, которые позволяют вашему соработнику временно сохранять выходные данные только для чтения в хранилище метаданных каталога Unity, чтобы они могли работать с ним в своих рабочих пространствах.
Как чистые комнаты обеспечивают не доверяемую среду?
Модель "Чистые комнаты Databricks" не доверяет. Все сотрудники в чистой комнате без доверия имеют равные привилегии, включая создателя чистой комнаты. Чистые комнаты предназначены для предотвращения выполнения несанкционированного кода и несанкционированного доступа к данным. Например, все сотрудники должны утвердить записную книжку перед его запуском. Это доверие применяется неявно, предотвращая выполнение совместной работы любой записной книжки, которую они создали сами: вы можете запустить записную книжку, созданную другим сотрудником.
Дополнительные гарантии или ограничения
В дополнение к неявному процессу утверждения записной книжки, упомянутым выше, применяются следующие меры безопасности.
После создания чистой комнаты она заблокирована, чтобы предотвратить присоединение новых сотрудников к чистой комнате.
Если любой сотрудник удаляет чистую комнату, центральная чистая комната пустота, и никакие задачи чистой комнаты не могут выполняться любым пользователем.
Во время общедоступной предварительной версии каждая чистая комната ограничена двумя участниками совместной работы.
Не удается переименовать чистую комнату.
Имя чистой комнаты должно быть уникальным в хранилище метаданных каждого участника совместной работы, чтобы все сотрудники могли ссылаться на одну и ту же чистую комнату однозначно.
Комментарии о защищенной чистой комнате в рабочей области каждого сотрудника не распространяются другим участникам совместной работы.
Что предоставляется другим участникам совместной работы?
- Имя чистой комнаты.
- Облако и регион центрального чистого помещения.
- Имя вашей организации (которое может быть любым именем, которое вы выбрали).
- Идентификатор общего доступа к чистой комнате (глобальный идентификатор хранилища метаданных и идентификатор рабочей области + адрес электронной почты пользователя).
- Алиасы общих таблиц, представлений или томов.
- Метаданные столбца (имя столбца или псевдоним и тип).
- Записные книжки (только для чтения).
- Таблицы вывода (только для чтения, временные).
- Таблица событий для системы чистой комнаты.
- Журнал выполнения, включая:
- Имя выполняемой записной книжки
- Сотрудник, выполняющий записную книжку (не пользователь).
- Состояние запуска записной книжки.
- Время запуска записной книжки.
Что общего с центральной чистой комнатой?
Все, что указано в предыдущем разделе.
Только для чтения: таблицы, тома, представления и записные книжки.
Таблицы, представления и объемы регистрируются в хранилище метаданных центральной чистой комнаты с любым заданным псевдонимом. Ресурсы данных разделяются на протяжении всего жизненного цикла чистой комнаты.
Вопросы и ответы о чистых комнатах
Ниже приведены часто задаваемые вопросы о чистых комнатах.
Как мои данные обрабатываются в чистом помещении?
Центральная чистая комната управляется Azure Databricks. В центральном чистом помещении:
- Ни у сторон не есть права администратора.
- Для всех сторон видны только метаданные.
- Каждая сторона может добавлять данные в центральную чистую комнату.
- Чистые комнаты используют Delta Sharing для безопасного обмена данными с чистыми комнатами, но не между участниками. См. Что такое Delta Sharing?.
Как хранятся частные данные?
Центральные чистые комнаты работают в изолированной, управляемой Databricks бессерверной вычислительной среде, размещенной в регионе облачного провайдера, который выбирает создатель этих чистых комнат.
Чистые номера предоставляют:
- утверждение кода: создатель чистых комнат и сотрудники могут совместно использовать таблицы и тома с центральной чистой комнатой, но могут запускать только записные книжки, отправленные другой стороной. Перед утверждением можно просмотреть код, добавленный другой стороной. Если вы запускаете записную книжку, добавленную другой стороной, неявно утверждаете код.
- управление версиями: ноутбуки для "чистых комнат" имеют управление версиями, чтобы все стороны могли запускать только полностью утвержденные ноутбуки. Можно запустить только последнюю версию записной книжки. Вы можете использовать системную таблицу чистых комнат, чтобы узнать, какая версия записной книжки была запущена и отслеживать любые внесенные изменения.
- ограниченный доступ: При создании чистой комнаты можно использовать бессерверный элемент управления исходящего трафика для управления исходящими сетевыми подключениями. Если вы ограничиваете доступ из чистой комнаты, доступ к несанкционированном хранилищу блокируется. См. Что такое бессерверный элемент управления исходящего трафика?.
Дополнительные сведения о безопасности и сетевых аспектах бессерверной вычислительной среды см. в .
Как записываются действия?
Действия чистой комнаты, выполненные вами или вашими сотрудниками, записываются в системную таблицу событий чистой комнаты. Эти записи включают подробные метаданные о конкретных действиях. См. таблицу справочника системы событий "чистой комнаты" .
Действия в чистой среде также записываются в журнал аудита учетной записи службы clean-room
. См. справочник по системной таблице журнала аудита .
Ограничения
Во время общедоступной предварительной версии применяются следующие ограничения:
- Учетные данные службы Scala не включены в требуемую версию Databricks Runtime.
Квоты ресурсов
Azure Databricks применяет квоты ресурсов ко всем защищаемым объектам чистой комнаты. Эти квоты перечислены в ограничениях ресурсов. Если вы ожидаете превышение этих ограничений ресурсов, обратитесь к группе учетных записей Azure Databricks.
Вы можете отслеживать использование квоты с помощью API квот ресурсов Unity Catalog. См. Мониторинг использования квот ресурсов каталога Unity.