Was sind Azure Databricks-Reinräume?
Wichtig
Dieses Feature befindet sich in der Public Preview.
In diesem Artikel werden Reinräume vorgestellt – ein Feature von Azure Databricks, das Delta Sharing und serverloses Computing verwendet, um eine sichere und datenschutzfreundliche Umgebung bereitzustellen, in der mehrere Parteien gemeinsam an vertraulichen Unternehmensdaten arbeiten können, ohne direkten Zugriff auf die Daten der anderen Partei zu haben.
Anforderungen
Für die Verwendung von Reinräumen gelten folgende Voraussetzungen:
- Sie müssen über ein Konto verfügen, das für serverloses Computing aktiviert ist. Weitere Informationen finden Sie unter Aktivieren des serverlosen Computings.
- Sie müssen über einen Arbeitsbereich verfügen, der für Unity Catalog aktiviert ist. Weitere Informationen finden Sie unter Aktivieren eines Arbeitsbereichs für Unity Catalog.
Funktionsweise von Reinräumen
Durch die Erstellung eines Reinraums erstellen Sie Folgendes:
- Ein sicherungsfähiges Reinraumobjekt in Ihrem Unity Catalog-Metastore
- Den „zentralen“ Reinraum, bei dem es sich um eine isolierte kurzlebige Umgebung handelt, die von Databricks verwaltet wird
- Ein sicherungsfähiges Reinraumobjekt im Unity Catalog-Metastore Ihres Projektmitarbeiters
Tabellen, Volumes (nicht tabellarische Daten) und Notizbücher, die von beiden Mitarbeitern im Reinraum freigegeben werden, werden nur für den zentralen Reinraum freigegeben, wobei die Delta-Freigabe verwendet wird.
Projektmitarbeiter können die Daten in Tabellen und Volumes anderer Projektmitarbeiter nicht sehen. Sie sehen jedoch Spaltennamen und -typen und können genehmigten Notebookcode für die Tabellen und Volumes ausführen. Der Notebookcode wird im zentralen Reinraum ausgeführt. Notizbücher können auch Ausgabetabellen generieren, mit denen Ihre Mitarbeiter vorübergehend die schreibgeschützte Ausgabe im Unity-Katalog-Metaspeicher speichern können, damit sie in ihren Arbeitsbereichen damit arbeiten können.
Wie stellen Reinräume eine Umgebung ohne Vertrauensstellung sicher?
Databricks-Reinräume basieren auf dem Modell „Keine Vertrauensstellung“. Alle Projektmitarbeiter in einem Reinraum ohne Vertrauensstellung haben die gleichen Berechtigungen, auch der Ersteller des Reinraums. Clean Rooms wurde entwickelt, um die Ausführung von nicht autorisiertem Code und die unbefugte Freigabe von Daten zu verhindern. Beispielsweise müssen alle Projektmitarbeiter ein Notebook genehmigen, bevor es ausgeführt werden kann. Diese Vertrauensstellung wird implizit erzwungen, indem verhindert wird, dass ein Projektmitarbeiter Notebooks ausführt, die er selbst erstellt hat: Sie können nur Notebooks ausführen, die vom anderen Projektmitarbeiter erstellt wurden.
Zusätzliche Schutzmaßnahmen oder Einschränkungen
Die folgenden Schutzmaßnahmen werden zusätzlich zum oben genannten impliziten Genehmigungsprozess für Notebooks angewendet:
Nachdem ein Reinraum erstellt wurde, wird er gesperrt, damit ihm keine neuen Projektmitarbeiter beitreten können.
Wenn ein Projektmitarbeiter den Reinraum löscht, wird der zentrale Reinraum ungültig, und kein Benutzer kann Aufgaben im Reinraum ausführen.
Während der Public Preview ist jeder Reinraum auf zwei Projektmitarbeiter beschränkt.
Sie können den Reinraum nicht umbenennen.
Der Name des Reinraums muss im Metastore jedes Projektmitarbeiters eindeutig sein, damit alle Projektmitarbeiter eindeutig auf denselben Reinraum verweisen können.
Kommentare zum sicherungsfähigen Reinraum im Arbeitsbereich der einzelnen Projektmitarbeiter werden nicht an andere Projektmitarbeiter weitergegeben.
Welche Daten werden für andere Projektmitarbeiter freigegeben?
- Der Name des Reinraums
- Die Cloud und Region des zentralen Reinraums
- Der Name Ihrer Organisation (ein beliebiger von Ihnen ausgewählter Name)
- Ihre Bezeichner für die Freigabe von Reinräumen (globale Metastore-ID + Arbeitsbereichs-ID + E-Mail-Adresse des Benutzers).
- Aliase von freigegebenen Tabellen oder Volumes
- Spaltenmetadaten (Spaltenname oder Spaltenalias und -typ)
- Notebooks (schreibgeschützt)
- Ausgabetabellen (schreibgeschützt, temporär).
- Systemtabelle für Reinraumereignisse
- Ausführungsverlauf, einschließlich:
- Name des ausgeführten Notebooks
- Projektmitarbeiter, von dem das Notebook ausgeführt wurde (nicht der Benutzer)
- Status des ausgeführten Notebooks
- Startzeit des ausgeführten Notebooks
Welche Daten werden für den zentralen Reinraum freigegeben?
Alle der im vorherigen Abschnitt aufgeführten Informationen
Schreibgeschützte Tabellen, Volumes und Notebooks
Tabellen und Volumes werden im Metastore des zentralen Reinraums mit allen bereitgestellten Aliasen registriert. Tabellen, Volumes und Notebooks werden während des gesamten Lebenszyklus des Reinraums freigegeben.
Begrenzungen
Während der Public Preview gelten die folgenden Einschränkungen:
- In der erforderlichen Databricks Runtime-Version sind keine Scala-Bibliotheken für Dienstanmeldeinformationsbibliotheken enthalten.
Ressourcenkontingente
Azure Databricks erzwingt Ressourcenkontingente für alle sicherungsfähigen Clean Room-Objekte. Diese Kontingente werden in den Ressourcengrenzwerten aufgeführt. Wenn Sie davon ausgehen, dass Sie diese Ressourcengrenzwerte überschreiten, wenden Sie sich an Ihr Azure Databricks-Kontoteam.
Sie können Ihren Kontingentbedarf mithilfe der Unity Catalog-Ressourcenkontingent-APIs überwachen. Weitere Informationen finden Sie unter Überwachen des Bedarfs an Unity-Katalogressourcenkontingenten.