Dela via


Vad är Delta-delning?

Den här artikeln beskriver deltadelning i Azure Databricks, den säkra datadelningsplattform som gör att du kan dela data och AI-tillgångar i Azure Databricks med användare utanför organisationen, oavsett om dessa användare använder Databricks eller inte. Delta Sharing är också grunden för Databricks Marketplace, ett öppet forum för utbyte av dataprodukter och Clean Rooms, en säker och integritetsskyddande miljö where där flera parter kan arbeta tillsammans med företagsdata som är känsliga.

Deltadelning är också tillgängligt som ett projekt med öppen källkod som du kan använda för att dela Delta-tables från andra plattformar.

Kommentar

Information om hur du får åtkomst till data som har delats med dig via Delta Sharing finns i Åtkomst till data som har delats med dig via Delta Sharing (för recipients).

Hur fungerar Deltadelning?

Deltadelning är ett öppet protokoll som utvecklats av Databricks för säker datadelning med andra organisationer oavsett vilka beräkningsplattformar de använder.

Det finns tre sätt att dela data med deltadelning:

  1. Databricks-till-Databricks-delningsprotokollet, som gör att du kan dela data och AI-tillgångar från din Unity Catalog-aktiverade arbetsyta med användare som också har åtkomst till en Unity Catalog-aktiverad Databricks-arbetsyta.

    Den här metoden använder deltadelningsservern som är inbyggd i Azure Databricks. Det stöder vissa Delta-delningsfunktioner som inte finns i de andra protokollen, inklusive delning av notebook-filer, Unity Catalog volymdelning, Unity Catalog AI-modell delning, Unity Catalog datastyrning, granskning och användarspårning för både providers och recipients. Integreringen med Unity Catalog förenklar konfigurationen och styrningen för både providers och recipients och förbättrar prestandan.

    Se Dela data med hjälp av protokollet Delta Sharing Databricks-to-Databricks (för providers).

  2. Databricks öppna delningsprotokoll, som gör att du kan dela tabelldata som du hanterar på en Unity-Catalog-aktiverad Databricks-arbetsyta med användare på alla databehandlingsplattformar.

    Den här metoden använder deltadelningsservern som är inbyggd i Azure Databricks och är användbar när du hanterar data med Unity Catalog och vill dela dem med användare som inte använder Databricks eller inte har åtkomst till en Unity-Catalog-aktiverad Databricks-arbetsyta. Integreringen med Unity Catalog på providersidan förenklar konfigurationen och styrningen för providers.

    Referera till för att dela data med hjälp av Delta Sharing-protokollet för öppen delning (providers).

  3. En kundhanterad implementering av deltadelningsservern med öppen källkod, som gör att du kan dela från valfri plattform till valfri plattform, oavsett om det är Databricks eller inte.

    Azure Databricks-dokumentationen innehåller inte instruktioner för hur du konfigurerar en egen deltadelningsserver. Se github.com/delta-io/delta-sharing.

sv-SE: Delta Sharing-arkitektur för dataåtkomst.

Shares, providersoch recipients

De främsta begreppen bakom deltadelning i Azure Databricks är shares, providersoch recipients.

Vad är en resurs?

I Deltadelning är en andel en skrivskyddad samling av tables och table partitioner som en leverantör vill dela med en eller flera recipients. Om mottagaren använder en Unity Catalog-aktiverad Databricks-arbetsyta kan du även inkludera notebook-filer, views (inklusive dynamiska views som begränsar åtkomsten på rad- och column-nivå), Unity Catalogvolumesoch Unity Catalog-modeller i en resurs.

Du kan lägga till eller removetables, views, volumes, modeller och notebook-filer från en delning när som helst, och du kan när som helst tilldela eller revoke datamottagare åtkomst till en delning.

I en Unity Catalog-aktiverad Azure Databricks-arbetsyta är en andel ett säkrad objekt som registrerats i Unity Catalog. Om du remove en resurs från ditt Unity-Catalog metaarkiv förlorar alla recipients av den resursen möjligheten att komma åt den.

Se Skapa och hantera shares för Delta Sharing.

Vad är en leverantör?

En tillhandahållare är en entitet som shares data med en mottagare. Om du är en provider och vill dra nytta av den inbyggda Databricks Delta Sharing-servern och hantera shares och recipients med hjälp av Unity Catalogbehöver du minst en Azure Databricks-arbetsyta som är aktiverad för Unity Catalog. Du behöver inte migrera alla dina befintliga arbetsytor till Unity Catalog. Du kan helt enkelt skapa en ny Unity Catalog-aktiverad arbetsyta för dina Delta Sharing-behov.

Om en mottagare finns på en Unity-Catalog-aktiverad Databricks-arbetsyta är leverantören också ett Unity-Catalog-skyddbart objekt som representerar leverantörsorganisationen och associerar organisationen med en set av shares.

Vad är en mottagare?

En mottagare är en entitet som tar emot shares från en provider. I Unity Catalogär en resurs ett skyddsbart objekt som representerar en organisation och associerar den med en identifier för autentiseringsuppgifter eller säker delning som gör att organisationen kan komma åt en eller flera shares.

Som dataprovider (sharer) kan du definiera flera recipients för en viss Unity-Catalog metaarkiv, men om du vill dela data från flera metastores med en viss användare eller grupp av användare måste du definiera mottagaren separat för varje metaarkiv. En mottagare kan ha åtkomst till flera shares.

Om en provider tar bort en mottagare från sitt Unity-Catalog metaarkiv förlorar mottagaren åtkomst till alla shares den tidigare kunde komma åt.

Se Skapa och hantera data recipients för Delta Sharing.

Öppen delning jämfört med Databricks-till-Databricks-delning

I det här avsnittet beskrivs de två protokollen för delning från en Databricks-arbetsyta som är aktiverad för Unity Catalog.

Kommentar

Det här avsnittet förutsätter att providern finns på en Unity-Catalog-aktiverad Azure Databricks-arbetsyta. För att lära dig om hur du konfigurerar en öppen källkods-deltadelningsserver för att dela från en icke-Databricks-plattform eller en icke-Unity-Catalog arbetsyta, se github.com/delta-io/delta-sharing.

Hur en leverantör använder deltadelning i Azure Databricks beror på vem de delar data med:

  • Med öppen delning kan du dela data med alla användare oavsett om de har åtkomst till Azure Databricks eller inte.
  • Databricks-till-Databricks-delning kan du dela data med Azure Databricks-användare vars arbetsyta är kopplad till ett Unity-Catalog metaarkiv som skiljer sig från ditt. Databricks-till-Databricks har också stöd för delning av notebook-filer, volymer och modeller, vilket inte är tillgängligt i öppen delning.

Vad är öppen deltadelning?

Om du vill dela data med användare utanför din Azure Databricks-arbetsyta, oavsett om de använder Databricks, kan du använda öppna Deltadelning för att dela dina data på ett säkert sätt. Som dataleverantör tilldelar du ett token generate och delar den säkert med mottagaren. De använder token för att autentisera och get läsåtkomst till tables som du har inkluderat i shares du har gett dem åtkomst till.

Recipients kan komma åt delade data med hjälp av många beräkningsverktyg och plattformar, inklusive:

  • Azure Databricks
  • Apache Spark
  • Pandor
  • Power BI

En fullständig lista över list av Delta Sharing-anslutningar och information om hur du använder dem finns i dokumentationen för Delta Sharing.

Se även Dela data med hjälp av det öppna delningsprotokollet Delta Sharing (för providers).

Vad är Databricks-till-Databricks Delta-delning?

Om du vill dela data med användare som har en Databricks-arbetsyta som är aktiverad för Unity Catalogkan du använda Databricks-till-Databricks Delta Sharing. Med Databricks-till-Databricks-delning kan du dela data med användare i andra Databricks-konton, oavsett om de finns på AWS, Azure eller GCP. Det är också ett bra sätt att på ett säkert sätt dela data över olika Unity-Catalogmetastores i ditt eget Databricks-konto. Observera att deltadelning inte behöver användas för att dela data mellan arbetsytor som är kopplade till samma Unity-Catalog metaarkiv, eftersom du i det scenariot kan använda Unity Catalog själv för att hantera åtkomst till data mellan arbetsytor.

En fördel med Databricks-till-Databricks-delning är att resursmottagaren inte behöver en token för att komma åt resursen och att providern inte behöver hantera mottagartoken. Säkerheten för delningsanslutningen – inklusive all identitetsverifiering, autentisering och granskning – hanteras helt och hållet via Deltadelning och Databricks-plattformen. En annan fördel är möjligheten att dela Databricks Notebook-filer, views, Unity Catalogvolumesoch Unity Catalog-modeller.

Se även Dela data med hjälp av protokollet Delta Sharing Databricks-to-Databricks (för providers).

Hur set provideradministratörer deltadelning?

Det här avsnittet ger en översikt över hur providers kan aktivera deltadelning och initiera delning från en Unity-Catalog-aktiverad Azure Databricks-arbetsyta. Deltadelning med öppen källkod finns i github.com/delta-io/delta-sharing.

Databricks-till-Databricks-delning mellan Unity-Catalogmetastores inom samma konto är alltid aktiverat. Om du är en leverantör som vill aktivera deltadelning för att dela data med Databricks-arbetsytor i andra konton eller icke-Databricks-klienter, utför en Administratör för Azure Databricks-konto eller metaarkivadministratör följande installationssteg (på hög nivå):

  1. Aktivera Deltadelning för Unity Catalog metaarkiv som hanterar de data som du vill dela.

    Kommentar

    Du behöver inte aktivera Delta Sharing i ditt metastore om du tänker använda Delta Sharing för att endast dela data med användare på andra Unity-Catalogmetastores på ditt konto. Som standard är delning av metaarkiv-till-metaarkiv i ett enda Azure Databricks-konto aktiverat.

    Se Aktivera Delta-delning i ett metaarkiv.

  2. Skapa en andel som inkluderar datatillgångar registrerade i Unity Catalog metaarkiv.

    Om du delar med en icke-Databricks-mottagare (kallas öppen delning) kan du inkludera tables i Delta- eller Parquet-format. Om du planerar att använda Databricks-till-Databricks-delningkan du också lägga till views, Unity Catalogvolumes, Unity Catalog-modeller och notebook-filer till en resurs.

    Se Skapa och hantera shares för Delta Sharing.

  3. Skapa en mottagare.

    Se Skapa och hantera data recipients för Delta Sharing.

    Om mottagaren inte är en Databricks-användare eller inte har åtkomst till en Databricks-arbetsyta som är aktiverad för Unity Catalogmåste du använda öppen delning. Ett set för tokenbaserade credentials genereras för mottagaren.

    Om mottagaren har åtkomst till en Databricks-arbetsyta som är aktiverad för Unity Catalogkan du använda Databricks-till-Databricks-delningoch inga tokenbaserade credentials krävs. Du begär en delning identifier från mottagaren och använder den för att upprätta den säkra anslutningen.

    Dricks

    Använd dig själv som testmottagare för att prova konfigurationsprocessen.

  4. Grant mottagarens åtkomst till en eller flera av shares.

    Se Hantera åtkomst till Delta Sharing-data shares (för providers).

    Kommentar

    Det här steget kan också utföras av en icke-administratörsanvändare med behörigheterna USE SHARE, USE RECIPIENT och SET SHARE PERMISSION . Se Unity Catalog-privilegier och skyddsbara objekt.

  5. Skicka den information som mottagaren behöver för att ansluta till resursen (endast öppen delning).

    Se Skicka mottagaren deras anslutningsinformation.

    För öppen delning använder du en säker kanal för att skicka en aktiveringslänk till mottagaren som gör att de kan ladda ned sin tokenbaserade credentials.

    För Databricks-till-Databricks-delning blir data som ingår i resursen tillgängliga på mottagarens Databricks-arbetsyta så snart du grant dem åtkomst till resursen.

Mottagaren kan nu komma åt delade data.

Hur får recipients åtkomst till delade data?

Recipients komma åt delade dataresurser i läsbehörighetsformat. Delade notebook-filer är skrivskyddade, men de kan klonas och sedan ändras och köras på mottagararbetsytan precis som andra notebook-filer.

Säker åtkomst beror på delningsmodellen:

När dataleverantören uppdaterar data tables eller volumes i sitt eget Databricks-konto visas uppdateringarna nästan i realtid i mottagarens system.

Hur håller du reda på vem som delar och har åtkomst till delade data?

Data providers på Unity Catalog-aktiverade Azure Databricks-arbetsytor kan använda Azure Databricks-granskningsloggning och system tables för att övervaka skapandet och ändringen av shares och recipientssamt övervaka mottagarnas aktivitet på shares. Se Granska och övervaka datadelning.

Data recipients som använder delade data på en Databricks-arbetsyta kan använda Databricks-granskningsloggning och system tables för att förstå vem som har åtkomst till vilka data. Se Granska och övervaka datadelning.

Dela volumes

Du kan dela volumes med databricks-till-Databricks-delningsflödet. Se Lägg till volumes till en delning (för providers) och Läs data som delas med Databricks-to-Databricks Delta Sharing (för recipients) (för recipients).

Dela modeller

Du kan dela modeller med databricks-till-Databricks-delningsflödet. Se Lägg till modeller i en delning (för providers) och Läs data som delas med Databricks-till-Databricks Delta Sharing (för recipients) (för recipients).

Dela anteckningsböcker

Du kan använda Delta-delning för att dela notebook-filer med databricks-till-Databricks-delningsflödet. Se Lägg till notebook-filer i en resurs (för providers) och Läs delade notebook-filer (för recipients).

Begränsa åtkomst på rad- och column-nivå

Du kan dela dynamiska views som begränsar åtkomsten till vissa table data baserat på mottagaregenskaper. Dynamisk vydelning kräver databricks-till-Databricks-delningsflödet. Se Lägg till dynamisk views till en delning för att filtrera rader och columns.

Deltadelning och strömning

Deltadelning stöder Spark Structured Streaming. En provider kan dela en table med historik så att en mottagare kan använda den som en strukturerad strömningskälla och bearbeta delade data stegvis med låg svarstid. Recipients kan också köra Frågor om tidsresor i Delta Lake på tables som delas med historiken.

Information om hur du delar tables med historik finns i Lägg till tables i en delning. Mer information om hur du använder delade tables som strömmande källor finns i Fråga efter en table med Apache Spark Structured Streaming (för recipients av Databricks-till-Databricks-delning) eller Få åtkomst till en delad table med Spark Structured Streaming- (för recipients av öppna delningsdata).

Se även Direktuppspelning på Azure Databricks.

Delta Lake-funktionsstödmatris

Delta Sharing stöder de flesta Delta Lake-funktioner när du delar en table. Den här stödmatrisen listar:

  • Deltafunktioner som kräver specifika versioner av Databricks Runtime, Delta Sharing Spark-anslutningsappen med öppen källkod eller Python-anslutningsappen för deltadelning med öppen källkod.
  • Funktioner som delvis stöds.
Funktion Provider Databricks-mottagare Mottagare med öppen källkod
Borttagningsvektorer Delning av tables med den här funktionen är tillgänglig i offentlig förhandsversion. – Databricks Runtime 14.1+ för batchfrågor
– Databricks Runtime 14.2+ för CDF- och strömningsfrågor
– Delta Sharing Spark Connector 3.1+
– Delta sharing Python connector 1.1.0+
– Power BI v2.132.908.0+
Column kartläggning Delning tables med den här funktionen är tillgänglig som en offentlig förhandsversion. – Databricks Runtime 14.1+ för batchfrågor
– Databricks Runtime 14.2+ för CDF- och strömningsfrågor
– Delta Sharing Spark Connector 3.1+
– Delta sharing Python connector 1.1.0+
– Power BI v2.132.908.0+
Enhetligt format Delningen av tables med denna funktion är i offentlig förhandsversion. – Databricks Runtime 14.1+ för batchfrågor
– Databricks Runtime 14.2+ för CDF- och strömningsfrågor
– Delta Sharing Spark Connector 3.1+
– Delta sharing Python connector 1.1.0+
– Power BI v2.132.908.0+
V2-kontrollpunkt Stöds med begränsningar Stöds med begränsningar Stöds med begränsningar
TidsstämpelNTZ Stöds Databricks Runtime 14.1+ Delta Sharing Spark Connector 3.3+
Flytande klustring Stöds med begränsningar Stöds med begränsningar Stöds med begränsningar

Vanliga frågor och svar om Delta-delning

Följande är vanliga frågor och svar om deltadelning.

Behöver jag Unity Catalog för att använda Deltadelning?

Nej, du behöver inte Unity-Catalog för att dela (som leverantör) eller använda delade data (som mottagare). Unity Catalog ger dock fördelar som stöd för icke-tabell- och AI-tillgångsdelning, out-of-the-box-styrning, enkelhet och frågeprestanda.

Providers kan dela data på två sätt:

  • Placera de tillgångar som ska delas under Unity Catalog hantering och dela dem med hjälp av den inbyggda Azure Databricks Delta-delningsservern.

    Du behöver inte migrera alla tillgångar till Unity Catalog. Du behöver bara en Azure Databricks-arbetsyta som är aktiverad för Unity Catalog för att hantera tillgångar som du vill dela. I vissa konton aktiveras nya arbetsytor för Unity Catalog automatiskt. Se Automatisk aktivering av Unity Catalog.

  • Implementera den öppna deltadelningsservern för att dela data, utan att nödvändigtvis använda ditt Azure Databricks-konto.

Recipients kan använda data på två sätt:

  • Utan en Databricks-arbetsyta. Använd Delta Sharing-anslutningsappar med öppen källkod som är tillgängliga för många dataplattformar, inklusive Power BI, Pandas och Apache Spark med öppen källkod. Se Läs data som delas med öppen delning via Delta Sharing (för recipients) och projektet Delta Sharing med öppen källkod.

  • I en Databricks-arbetsyta. Mottagararbetsytor behöver inte aktiveras för Unity Catalog, men det finns fördelar med styrning, enkelhet och prestanda om de är det.

    Mottagarorganisationer som vill ha dessa fördelar behöver inte migrera alla tillgångar till Unity Catalog. Du behöver bara en Azure Databricks-arbetsyta som är aktiverad för Unity Catalog för att hantera tillgångar som delas med dig. I vissa konton aktiveras nya arbetsytor för Unity Catalog automatiskt. Se Automatisk aktivering av Unity Catalog.

Se Läs data som delas med deltadelning för öppen delning (för recipients) och Läs data som delas med hjälp av Databricks-till-Databricks Delta Sharing (för recipients).

Behöver jag vara en Databricks-kund för att kunna använda Delta-delning?

Nej, Delta-delning är ett öppet protokoll. Du kan dela data som inte är Databricks med recipients på valfri dataplattform. Providers kan konfigurera en öppen Delta Sharing-server för att dela från vilken som helst databehandlingsplattform. Recipients kan använda delade data med deltadelningsanslutningar med öppen källkod för många dataprodukter, inklusive Power BI, pandas och Spark.

Emellertid, att använda Delta Sharing på Azure Databricks, särskilt delning från en Unity Catalog-aktiverad arbetsyta, har många fördelar.

Mer information finns i den första frågan i dessa vanliga frågor och svar.

Medför Delta-delning utgående kostnader?

Delta-delning inom en region medför ingen utgående kostnad. Till skillnad från andra datadelningsplattformar kräver Delta-delning inte datareplikering. Den här modellen har många fördelar, men det innebär att molnleverantören kan ta ut avgifter för utgående data när du delar data mellan moln eller regioner. Azure Databricks stöder delning från Cloudflare R2, som inte medför några utgående avgifter, och tillhandahåller andra verktyg och rekommendationer för att övervaka och undvika utgående avgifter. Se Övervaka och hantera utgående kostnader för Delta Sharing (för providers).

Kan providersrevoke mottagaren få åtkomst?

Ja, mottagaråtkomst kan återkallas på begäran och på angivna detaljnivåer. Du kan deny mottagaråtkomst till specifika shares och specifika IP-adresser, filtrera tabelldata för en mottagare, revoke mottagartokens och ta bort recipients helt. Se Revoke mottagarens åtkomst till en resurs och Skapa och hantera data recipients för Delta Sharing.

Är det inte osäkert att använda försignerade URL:er?

Delta-delning använder försignerade URL:er för att ge tillfällig åtkomst till en fil i objektlagring. De ges endast till recipients som redan har åtkomst till delade data. De är säkra eftersom de är kortvariga och inte utökar åtkomstnivån utöver vad recipients redan har beviljats.

Är de token som används i protokollet Delta-delning för öppen delning säker?

Eftersom Delta-delning möjliggör plattformsoberoende delning, till skillnad från andra tillgängliga datadelningsplattformar, kräver delningsprotokollet en öppen token. Providers kan garantera tokensäkerhet genom att konfigurera tokens livslängd, ange nätverkskontroller och återkalla åtkomst på begäran. Dessutom expanderar token inte åtkomstnivån utöver vad recipients redan har beviljats. Se Säkerhetsöverväganden för token.

Om du föredrar att inte använda token för att hantera åtkomst till mottagare sharesbör du använda Databricks-till-Databricks-delning eller kontakta ditt Databricks-kontoteam för alternativ.

Stöder deltadelning visningsdelning?

Ja, Deltadelning stöder visningsdelning. Se Lägg till views till en andel.

Kontakta databricks-kontoteamet om du vill veta mer om planerade förbättringar av att visa delning.

Begränsningar

Se även Delta Lake-funktionsstödmatris.

Resurskvoter

Azure Databricks tillämpar resurskvoter på alla deltadelningsobjekt som kan skyddas. Dessa kvoter visas i Resursgränser. Om du förväntar dig att överskrida dessa resursgränser kontaktar du ditt Azure Databricks-kontoteam.

Du kan övervaka din kvotanvändning med hjälp av API:erna för Unity-Catalog resurskvoter. Se Övervaka din användning av Unity Catalog resurskvoter.

Nästa steg