Dela data med hjälp av Protokollet Delta Sharing Databricks-to-Databricks (för leverantörer)
Den här artikeln ger en översikt över hur du använder Databricks-till-Databricks Delta-delning för att dela data på ett säkert sätt med alla Databricks-användare, oavsett konto eller molnvärd, så länge användaren har åtkomst till en arbetsyta som är aktiverad för Unity Catalog.
Kommentar
Om du är en datamottagare (en användare eller grupp av användare som Databricks-data delas med), se Åtkomst till data som delas med dig via Delta Sharing (för mottagare).
Vem ska använda Databricks-till-Databricks Delta-delning?
Det finns tre sätt att dela data med deltadelning.
Databricks-till-Databricks-delningsprotokollet, som beskrivs i den här artikeln, kan du dela data från din Unity Catalog-aktiverade arbetsyta med användare som också har åtkomst till en Unity Catalog-aktiverad Databricks-arbetsyta.
Den här metoden använder sig av Delta Sharing-servern som är inbyggd i Azure Databricks och ger stöd för delning av notebooks, datahantering i Unity Catalog, revision samt spårning av användning för både leverantörer och mottagare. Integreringen med Unity Catalog förenklar konfigurationen och styrningen för både leverantörer och mottagare och förbättrar prestandan.
Med Databricks open sharing protocol kan du dela data som du hanterar på en Unity Catalog-aktiverad Databricks-arbetsyta med användare på alla beräkningsplattformar.
Se Dela data med hjälp av Delta Sharing-protokollet för öppen delning (för leverantörer).
Med en kundhanterad implementering av deltadelningsservern med öppen källkod kan du dela från valfri plattform till valfri plattform, oavsett om det är Databricks eller inte.
En introduktion till Deltadelning och mer information om dessa tre metoder finns i Vad är deltadelning?.
Databricks-till-Databricks Delta-delningsarbetsflöde
Det här avsnittet innehåller en översikt på hög nivå över databricks-till-Databricks-delningsarbetsflödet, med länkar till detaljerad dokumentation för varje steg.
I Databricks-till-Databricks Delta-delningsmodellen:
En mottagare ger en dataleverantör den unika delningsidentifieraren för metaarkivet i Databricks Unity Catalog som är kopplat till Databricks-arbetsytan som mottagaren (som representerar en användare eller grupp av användare) använder för att få tillgång till de data som delas av dataleverantören.
Mer information finns i Steg 1: Begär mottagarens delningsidentifierare.
Dataprovidern skapar en resurs i leverantörens Unity Catalog-metaarkiv. Det här namngivna objektet innehåller en samling tabeller, vyer, volymer och notebook-filer som registrerats i metaarkivet.
Mer information finns i Skapa och hantera delningar för Delta Sharing.
Dataprovidern skapar ett mottagarobjekt i providerns Unity Catalog-metaarkiv. Det här namngivna objektet representerar den användare eller grupp av användare som kommer åt data som ingår i resursen, tillsammans med delningsidentifieraren för Unity Catalog-metaarkivet som är kopplat till arbetsytan som användaren eller gruppen av användare kommer att använda för att komma åt resursen. Delningsidentifieraren är nyckelidentifieraren som aktiverar den säkra anslutningen.
Mer information finns i Steg 2: Skapa mottagaren.
Dataleverantören ger mottagaren åtkomst till resursen.
För detaljer, se Hantera åtkomst för leverantörer till Delta Sharing-dataandelar.
Resursen blir tillgänglig på mottagarens Databricks-arbetsyta och användarna kan komma åt den med hjälp av Catalog Explorer, Databricks CLI eller SQL-kommandon i en Azure Databricks-notebook-fil eller Databricks SQL-frågeredigeraren.
För att få åtkomst till tabeller, vyer, volymer och notebook-filer i en resurs måste en metaarkivadministratör eller privilegierad användare skapa en katalog från resursen. Sedan kan den användaren eller en annan användare som beviljas rätt behörighet ge andra användare åtkomst till katalogen och objekten i katalogen. Att bevilja behörigheter för delade kataloger och datatillgångar fungerar precis som med andra tillgångar som är registrerade i Unity Catalog, och den viktiga skillnaden är att användare endast kan beviljas läsbehörighet för objekt i kataloger som skapas från Delta-delningsresurser.
Delade notebook-filer finns på katalognivå och alla användare med
USE CATALOG
behörighet i katalogen kan komma åt dem.Mer information finns i Läsa data som delas med Databricks-till-Databricks Delta-delning (för mottagare).
Förbättra tabellläsningsprestanda med historikdelning
Viktig
Den här funktionen finns i offentlig förhandsversion.
Databricks-till-Databricks-tabellresurser kan förbättra prestanda genom att aktivera historikdelning. Delningshistoriken förbättrar prestandan genom att utnyttja tillfälliga säkerhetsautentiseringsuppgifter från din molnlagring, som är begränsad till rotkatalogen i providerns delade Delta-tabell, vilket resulterar i prestanda som är jämförbar med direkt åtkomst till källtabeller.
- För nya tabellresurser anger du
WITH HISTORY
när du skapar tabellresursen. Se Lägg till tabeller i en delning. När du delar en tabell med beräkning på Databricks Runtime 16.2 och senare ärWITH HISTORY
standardvärdet. - För befintliga tabellandelar måste du ändra andelen för att möjliggöra delning av tabellhistorik. Se Uppdatering aktier. När du delar en tabell med beräkning på Databricks Runtime 16.2 och senare är
WITH HISTORY
standardvärdet.
När du delar ett helt schema delas alla tabeller i schemat med historiken som standard.
Kommentar
Tabeller med partitionering aktiverat får inte prestandafördelarna med historikdelning. Se Ange vilka tabellpartitioner som ska delas
Historikdelning av datasekretess
Leverantörer bör vara medvetna om att delning av Databricks-till-Databricks-historik ger mottagare av Delta Sharing tillfällig läsåtkomst till både datafilerna och Delta-loggen. Deltaloggen innehåller incheckningshistoriken för varje tabellversion, information om incheckningen (liknar GitHub-incheckningshistorik) och borttagna data som inte har dammsugats.