Teilen über


Was sind Azure Databricks-Reinräume?

In diesem Artikel werden Reinräume vorgestellt – ein Feature von Azure Databricks, das Delta Sharing und serverloses Computing verwendet, um eine sichere und datenschutzfreundliche Umgebung bereitzustellen, in der mehrere Parteien gemeinsam an vertraulichen Unternehmensdaten arbeiten können, ohne direkten Zugriff auf die Daten der anderen Partei zu haben.

Anforderungen

Um für die Nutzung von Reinräumen berechtigt zu sein, müssen Sie folgendes haben:

Funktionsweise von Reinräumen

Durch die Erstellung eines Reinraums erstellen Sie Folgendes:

  • Ein sicherungsfähiges Reinraumobjekt in Ihrem Unity Catalog-Metastore
  • Den „zentralen“ Reinraum, bei dem es sich um eine isolierte kurzlebige Umgebung handelt, die von Databricks verwaltet wird
  • Ein sicherungsfähiges Reinraumobjekt im Unity Catalog-Metastore Ihres Projektmitarbeiters

Tabellen, Volumes (nicht tabellarische Daten), Ansichten und Notebooks, die die Projektmitarbeitenden im Reinraum teilen, werden mithilfe von Delta Sharing nur für den zentralen Reinraum freigegeben.

Mitarbeiter können die Daten in den Tabellen, Ansichten oder Volumes anderer Mitarbeiter nicht sehen, aber sie können Spaltennamen und Spaltentypen sehen, und sie können genehmigten Notizbuchcode ausführen, der über die Datenressourcen ausgeführt wird. Der Notebookcode wird im zentralen Reinraum ausgeführt. Notizbücher können auch Ausgabetabellen generieren, mit denen Ihre Mitarbeiter vorübergehend die schreibgeschützte Ausgabe im Unity-Katalog-Metaspeicher speichern können, damit sie in ihren Arbeitsbereichen damit arbeiten können.

Einfache Architektur und Ablauf von Räumen mit Ausgabetabellen

Wie stellen Reinräume eine Umgebung ohne Vertrauensstellung sicher?

Databricks-Reinräume basieren auf dem Modell „Keine Vertrauensstellung“. Alle Projektmitarbeiter in einem Reinraum ohne Vertrauensstellung haben die gleichen Berechtigungen, auch der Ersteller des Reinraums. Clean Rooms wurde entwickelt, um die Ausführung von nicht autorisiertem Code und die unbefugte Freigabe von Daten zu verhindern. Beispielsweise müssen alle Projektmitarbeiter ein Notebook genehmigen, bevor es ausgeführt werden kann. Diese Vertrauensstellung wird implizit erzwungen, indem verhindert wird, dass ein Projektmitarbeiter Notebooks ausführt, die er selbst erstellt hat: Sie können nur Notebooks ausführen, die vom anderen Projektmitarbeiter erstellt wurden.

Zusätzliche Schutzmaßnahmen oder Einschränkungen

Die folgenden Schutzmaßnahmen werden zusätzlich zum oben genannten impliziten Genehmigungsprozess für Notebooks angewendet:

  • Nachdem ein Reinraum erstellt wurde, wird er gesperrt, damit ihm keine neuen Projektmitarbeiter beitreten können.

  • Wenn ein Projektmitarbeiter den Reinraum löscht, wird der zentrale Reinraum ungültig, und kein Benutzer kann Aufgaben im Reinraum ausführen.

  • Während der Public Preview ist jeder Reinraum auf zwei Projektmitarbeiter beschränkt.

  • Sie können den Reinraum nicht umbenennen.

    Der Name des Reinraums muss im Metastore jedes Projektmitarbeiters eindeutig sein, damit alle Projektmitarbeiter eindeutig auf denselben Reinraum verweisen können.

  • Kommentare zum sicherungsfähigen Reinraum im Arbeitsbereich der einzelnen Projektmitarbeiter werden nicht an andere Projektmitarbeiter weitergegeben.

Welche Daten werden für andere Projektmitarbeiter freigegeben?

  • Der Name des Reinraums
  • Die Cloud und Region des zentralen Reinraums
  • Der Name Ihrer Organisation (ein beliebiger von Ihnen ausgewählter Name)
  • Ihre Bezeichner für die Freigabe von Reinräumen (globale Metastore-ID + Arbeitsbereichs-ID + E-Mail-Adresse des Benutzers).
  • Aliase von freigegebenen Tabellen, Sichten oder Volumes
  • Spaltenmetadaten (Spaltenname oder Spaltenalias und -typ)
  • Notebooks (schreibgeschützt)
  • Ausgabetabellen (schreibgeschützt, temporär).
  • Systemtabelle für Reinraumereignisse
  • Ausführungsverlauf, einschließlich:
    • Name des ausgeführten Notebooks
    • Projektmitarbeiter, von dem das Notebook ausgeführt wurde (nicht der Benutzer)
    • Status des ausgeführten Notebooks
    • Startzeit des ausgeführten Notebooks

Welche Daten werden für den zentralen Reinraum freigegeben?

  • Alle der im vorherigen Abschnitt aufgeführten Informationen

  • Schreibgeschützte Tabellen, Volumes, Sichten und Notebooks

    Tabellen, Sichten und Volumes werden im Metastore des zentralen Reinraums mit allen bereitgestellten Aliasen registriert. Datenressourcen werden während des gesamten Lebenszyklus des Reinraums freigegeben.

Häufig gestellte Fragen zu Clean Rooms

Im Folgenden werden häufig gestellte Fragen zu Reinräumen gestellt.

Wie werden meine Daten in einem Reinraum verwaltet?

Der zentrale Reinraum wird von Azure Databricks verwaltet. Im zentralen Reinraum:

  • Keine der Parteien verfügt über Administratorrechte.
  • Nur Metadaten sind für alle Parteien sichtbar.
  • Jede Partei kann dem zentralen Reinraum Daten hinzufügen.
  • Reinräume nutzen Delta Sharing, um Daten sicher an den Reinraum weiterzugeben, jedoch nicht zwischen Teilnehmenden. Lesen Sie Was ist Delta Sharing?.

Wie werden meine Daten privat gehalten?

Zentrale Reinräume werden in einer isolierten, von Databricks verwalteten serverlosen Computingebene ausgeführt, die in der Region eines Cloudanbieters gehostet wird, die die Person, die den Reinraum erstellt, wählt.

Saubere Räume bieten:

  • Codegenehmigung: Die Person, die den Reinraum erstellt, sowie Projektmitarbeitende können Tabellen und Volumes für den zentralen Reinraum freigeben. Sie können jedoch nur Notebooks ausführen, die von der anderen Partei hochgeladen wurden. Sie können den von der anderen Partei hinzugefügten Code überprüfen, bevor Sie die Genehmigung genehmigen. Wenn Sie ein Notizbuch ausführen, das von einer anderen Partei hinzugefügt wurde, genehmigen Sie den Code implizit.
  • Versionskontrolle: Notebooks in Reinräumen verfügen über eine Versionskontrolle, um sicherzustellen, dass alle Parteien nur vollständig genehmigte Notebooks ausführen können. Es kann nur die neueste Version eines Notizbuchs ausgeführt werden. Mithilfe der Systemtabelle "Clean Rooms" können Sie sehen, welche Version des Notizbuchs ausgeführt wurde, und alle vorgenommenen Änderungen überwachen.
  • Eingeschränkter Zugriff: Wenn Sie einen Reinraum erstellen, können Sie serverlose Ausgangssteuerung verwenden, um ausgehende Netzwerkverbindungen zu verwalten. Wenn Sie den Zugriff von Ihrem Reinraum einschränken, wird der Zugriff auf nicht autorisierten Speicher blockiert. Siehe Was ist serverlose Ausgangskontrolle?

Weitere Informationen zur Sicherheit und zur serverlosen Computingebene finden Sie unter Netzwerke auf der serverlosen Computeebene.

Wie werden Aktionen aufgezeichnet?

Von Ihnen oder Ihren Mitarbeitern ausgeführte Clean Room-Aktionen werden in der Systemtabelle für Clean Room-Ereignisse aufgezeichnet. Zu diesen Datensätzen gehören detaillierte Metadaten zu den ausgeführten Aktionen. Siehe Verweis auf die Systemtabelle für Reinraumereignisse.

Reinraumaktionen werden auch im Überwachungsprotokoll Ihres Kontos unter dem Dienst clean-room aufgezeichnet. Siehe Referenz zur Systemtabelle des Überwachungsprotokolls.

Begrenzungen

Während der Public Preview gelten die folgenden Einschränkungen:

  • In der erforderlichen Databricks Runtime-Version sind keine Scala-Bibliotheken für Dienstanmeldeinformationsbibliotheken enthalten.

Ressourcenkontingente

Azure Databricks erzwingt Ressourcenkontingente für alle sicherungsfähigen Clean Room-Objekte. Diese Kontingente werden in den Ressourcengrenzwerten aufgeführt. Wenn Sie davon ausgehen, dass Sie diese Ressourcengrenzwerte überschreiten, wenden Sie sich an Ihr Azure Databricks-Kontoteam.

Sie können Ihren Kontingentbedarf mithilfe der Unity Catalog-Ressourcenkontingent-APIs überwachen. Weitere Informationen finden Sie unter Überwachen des Bedarfs an Unity-Katalogressourcenkontingenten.

Erste Schritte