Vad är Azure Databricks Clean Rooms?
Den här artikeln introducerar Clean Rooms, en Azure Databricks-funktion som använder deltadelning och serverlös beräkning för att tillhandahålla en säker och sekretessskyddande miljö där flera parter kan arbeta tillsammans med känsliga företagsdata utan direkt åtkomst till varandras data.
Krav
För att kunna använda rena rum måste du ha:
- Ett konto som är aktiverat för serverlös beräkning. Se Aktivera serverlös beräkning.
- En arbetsyta som är aktiverad för Unity Catalog. Se Aktivera en arbetsyta för Unity Catalog.
- Deltadelning aktiverat för ditt Unity Catalog-metaarkiv. Se Aktivera deltadelning i ett metaarkiv.
Hur fungerar Clean Rooms?
När du skapar ett rent rum skapar du följande:
- Ett skyddsbart clean room-objekt i ditt Unity Catalog-metastore.
- Det "centrala" rena rummet, som är en isolerad tillfällig miljö som hanteras av Databricks.
- Ett skyddsbart objekt för rent rum i medarbetarens Unity Catalog-metaarkiv.
Tabeller, volymer (icke-tabellära data), vyer och notebooks som samarbetspartnern delar i renrummet delas endast med det centrala renrummet med hjälp av Delta Sharing.
Medarbetare kan inte se data i andra medarbetares tabeller, vyer eller volymer, men de kan se kolumnnamn och kolumntyper, och de kan köra godkänd notebook-kod som körs över datatillgångarna. Notebook-koden körs i det centrala renrummet. Notebook-filer kan också generera utdatatabeller som gör att dina medarbetare tillfälligt kan spara utdata som är skrivskyddade i metaarkivet i Unity Catalog så att de kan arbeta med dem på sina arbetsytor.
Hur säkerställer Clean Rooms en miljö utan förtroende?
Databricks Clean Rooms-modellen är "no-trust". Alla medarbetare i ett rent rum utan förtroende har lika privilegier, inklusive skaparen av det rena rummet. Clean Rooms är utformat för att förhindra körning av obehörig kod och obehörig delning av data. Alla medarbetare måste till exempel godkänna en notebook-fil innan den kan köras. Det här förtroendet framtvingas implicit genom att hindra en medarbetare från att köra alla notebook-filer som de själva har skapat: du kan bara köra en notebook-fil som skapats av den andra medarbetaren.
Ytterligare skyddsåtgärder eller begränsningar
Följande skyddsåtgärder finns utöver den implicita processen för godkännande av notebook-filer som nämns ovan:
När ett rent rum har skapats är det låst för att förhindra att nya medarbetare ansluter till det rena rummet.
Om någon medarbetare tar bort renrummet blir det centrala renrummet ogiltigt och inga renrumsuppgifter kan köras av någon användare.
Varje rent rum är begränsat till två medarbetare.
Du kan inte byta namn på det rena rummet.
Det rena rummets namn måste vara unikt i varje medarbetares metaarkiv, så att alla medarbetare kan referera till samma rena rum otvetydigt.
Kommentarer om det rena rummet som kan skyddas på varje medarbetares arbetsyta sprids inte till andra medarbetare.
Vad delas med andra medarbetare?
- Rent rumsnamn.
- Molnet och regionen i det centrala rena rummet.
- Ditt organisationsnamn (som kan vara valfritt namn).
- Din identifierare för delning av rent rum (globalt metaarkiv-ID + arbetsyte-ID + användarens e-postadress).
- Alias för delade tabeller, vyer eller volymer.
- Kolumnmetadata (kolumnnamn eller alias och typ).
- Anteckningsböcker (skrivskyddade).
- Utdatatabeller (skrivskyddad, tillfällig).
- Systemtabell för renrumshändelser.
- Körningshistorik, inklusive:
- Namnet på anteckningsboken som körs för närvarande
- Medarbetare som körde anteckningsboken (inte användaren).
- Tillståndet för notebook-körningen.
- Starttiden för körningen av notebooken.
Vad delas med det centrala renrummet?
Allt som visas i föregående avsnitt.
Skrivskyddade tabeller, volymer, vyer och notebook-filer.
Tabeller, vyer och volymer registreras i det centrala renrummets metaarkiv med eventuella angivna alias. Datatillgångar delas under hela livscykeln för det rena rummet.
Vanliga frågor och svar om Rena rum
Följande är vanliga frågor om rena rum.
Hur hanteras mina data i ett rent rum?
Det centrala rena rummet hanteras av Azure Databricks. I det centrala rena rummet:
- Ingen av parterna har administratörsbehörighet.
- Endast metadata är synliga för alla parter.
- Varje part kan lägga till data i det centrala renrummet.
- Rena rum använder Deltadelning för att dela data på ett säkert sätt till det rena rummet, men inte mellan deltagarna. Se Vad innebär deltadelning?.
Hur hålls mina data privata?
Centrala renrum körs i ett isolerat beräkningsplan utan server som hanteras av Databricks, och är placerat i en region hos molnleverantören som renrummets skapare väljer.
I de rena rummen finns:
- Kodgodkännande: Skaparen och medarbetare i det rena rummet kan dela tabeller och volymer med det centrala rena rummet, men kan bara köra notebook-filer som laddats upp av den andra parten. Du kan granska koden som lagts till av den andra parten innan du godkänner den. Om du kör en notebook-fil som lagts till av en annan part godkänner du implicit koden.
- Versionskontroll: Renrum-notebooks har versionskontroll för att säkerställa att alla parter endast kan köra fullt godkända notebooks. Endast den senaste versionen av en notebook-fil kan köras. Du kan använda systemtabellen för rena rum för att se vilken version av anteckningsboken som kördes och övervaka alla ändringar som gjorts.
- Begränsad åtkomst: När du skapar ett rent rum kan du använda serverlös utgående kontroll för att hantera utgående nätverksanslutningar. Om du begränsar åtkomsten från ditt rena rum blockeras åtkomsten till obehörig lagring. Se Vad är serverlös utgående kontroll?.
Mer information om säkerhet och det serverlösa beräkningsplanet finns i Serverless compute plane networking.
Hur registreras åtgärder?
Åtgärder för rent rum som vidtas av dig eller dina medarbetare registreras i systemtabellen för renrumshändelser. Dessa poster innehåller detaljerade metadata om den specifika åtgärd som vidtagits. Se systemtabellsreferens för renrumshändelser.
Åtgärder för rent rum registreras också i ditt kontos granskningslogg under tjänsten clean-room
. Se referens till systemtabell för granskningslogg.
Hur fungerar faktureringen?
Mer information om priser för Databricks Clean Rooms finns i länk.
Begränsningar
Följande begränsningar gäller:
- Inga Scala-bibliotek för tjänstautentiseringsuppgifter ingår i den nödvändiga Databricks Runtime-versionen.
Resurskvoter
Azure Databricks tillämpar resurskvoter för alla objekt som kan skyddas av Clean Room. Dessa kvoter visas i Resursgränser. Om du förväntar dig att överskrida dessa resursgränser kontaktar du ditt Azure Databricks-kontoteam.
Du kan övervaka din kvotanvändning med hjälp av API:erna för Enhetskatalogens resurskvoter. Se Övervaka din användning av Unity Catalog-resurskvoter.