Co to jest Delta Sharing?
W tym artykule przedstawiono udostępnianie funkcji Delta w usłudze Azure Databricks— bezpieczną platformę udostępniania danych, która umożliwia udostępnianie danych i zasobów sztucznej inteligencji w usłudze Azure Databricks użytkownikom spoza organizacji, niezależnie od tego, czy użytkownicy korzystają z usługi Databricks, czy nie. Udostępnianie różnicowe jest również podstawą Databricks Marketplace, otwarte forum wymiany produktów danych oraz Clean Rooms, bezpieczne i chroniące prywatność środowisko, where wiele stron może współpracować nad poufnymi danymi przedsiębiorstwa.
Udostępnianie Delta jest również dostępne jako projekt open source, którego można użyć do udostępniania Delta tables z innych platform.
Uwaga
Aby dowiedzieć się, jak uzyskać dostęp do danych udostępnionych Tobie za pomocą Delta Sharing, zobacz Uzyskaj dostęp do danych udostępnionych Tobie przy użyciu Delta Sharing (dla recipients).
Jak działa udostępnianie różnicowe?
Usługa Delta Sharing to otwarty protokół opracowany przez usługę Databricks na potrzeby bezpiecznego udostępniania danych innym organizacjom niezależnie od używanych platform obliczeniowych.
Istnieją trzy sposoby udostępniania danych przy użyciu funkcji udostępniania różnicowego:
protokół udostępniania usługi Databricks do usługi Databricks, który umożliwia udostępnianie danych i zasobów sztucznej inteligencji z poziomu obszaru roboczego aparatu Unity Catalogz obsługą użytkowników, którzy mają również dostęp do obszaru roboczego środowiska Unity Catalogz obsługą usługi Databricks.
To podejście korzysta z serwera udostępniania różnicowego wbudowanego w usługę Azure Databricks. Obsługuje ona niektóre funkcje Delta Sharing, które nie są obsługiwane w innych protokołach, w tym udostępnianie notesów, udostępnianie woluminów Unity Catalog, udostępnianie modelu AI Unity Catalog, zarządzanie danymi Unity Catalog, audyt i śledzenie użycia zarówno dla providers, jak i recipients. Integracja z platformą Unity Catalog upraszcza konfigurowanie i zarządzanie zarówno dla providers, jak i recipients oraz poprawia wydajność.
Zobacz , jak udostępniać dane przy użyciu protokołu Delta Sharing Databricks-to-Databricks (dla providers).
Protokół otwartego udostępniania usługi Databricks, który umożliwia udostępnianie danych tabelarycznych zarządzanych w obszarze roboczym Databricks z obsługą Unity Catalogużytkownikom na dowolnej platformie obliczeniowej.
Takie podejście korzysta z serwera Delta Sharing wbudowanego w Azure Databricks i jest przydatne, gdy zarządzasz danymi za pomocą Unity Catalog i chcesz udostępnić je użytkownikom, którzy nie korzystają z Databricks lub nie mają dostępu do obszaru roboczego Databricks zgodnego z Unity Catalog. Integracja z platformą Unity Catalog po stronie dostawcy upraszcza konfigurowanie i zarządzanie providers.
Zobacz, jak udostępnić dane za pomocą protokołu otwartego udostępniania Delta Sharing () dla providers.
Implementacja zarządzana przez klienta serwera udostępniania różnicowego typu open source, która umożliwia udostępnianie z dowolnej platformy do dowolnej platformy niezależnie od tego, czy jest to usługa Databricks, czy nie.
Dokumentacja usługi Azure Databricks nie obejmuje instrukcji dotyczących konfigurowania własnego serwera udostępniania różnicowego. Zobacz github.com/delta-io/delta-sharing.
Shares, providersi recipients
Podstawowe pojęcia związane z funkcją Delta Sharing w usłudze Azure Databricks to shares, providersi recipients.
Co to jest udział?
W Delta Sharing, udział jest kolekcją tables i partycjami table tylko do odczytu, które dostawca chce udostępnić jednemu lub kilku recipients. Jeśli odbiorca używa obszaru roboczego usługi Databricks z obsługą Unity Catalog, możesz również dołączyć pliki notesu, views (w tym dynamiczne views ograniczające dostęp na poziomie wiersza i column), Unity Catalogvolumesoraz modele Unity Catalog w udziale.
W dowolnym momencie można dodawać lub removetables, views, volumes, modele i pliki notesów z udziału. W dowolnym momencie możesz też przypisać lub revoke dostęp adresata danych do udziału w dowolnym momencie.
W obszarze roboczym środowiska Unity Catalogz obsługą usługi Azure Databricks udział jest zabezpieczanym obiektem zarejestrowanym w środowisku Unity Catalog. Jeśli remove z udziału w systemie metadanych Catalog Unity, wszystkie recipients tego współdzielonego zasobu utracą możliwość dostępu do niego.
Zobacz Utwórz i zarządzaj shares dla Delta Sharing.
Co to jest dostawca?
Dostawca to jednostka, która shares dane z adresatem. Jeśli jesteś dostawcą i chcesz korzystać z wbudowanego serwera Delta Sharing usługi Databricks i zarządzać shares i recipients przy użyciu Unity Catalog, potrzebujesz co najmniej jednego obszaru roboczego Azure Databricks, który jest włączony dla Unity Catalog. Nie trzeba migrować wszystkich istniejących obszarów roboczych do środowiska Unity Catalog. Możesz po prostu utworzyć nowy obszar roboczy z obsługą Unity Catalog, aby zaspokoić potrzeby związane z Delta Sharing.
Jeśli adresat znajduje się w obszarze roboczym Databricks z obsługą silnika Unity Catalog, to dostawca jest także obiektem zabezpieczanym silnika Unity Catalog, który reprezentuje organizację dostawcy i łączy tę organizację z setshares.
Kim jest odbiorca?
Odbiorca jest jednostką odbierającą shares od dostawcy. W Unity Catalog, zasób jest zabezpieczanym obiektem reprezentującym organizację i kojarzy je z poświadczeniami lub bezpiecznym mechanizmem udostępniania identifier, które umożliwiają tej organizacji dostęp do co najmniej jednego shares.
Jako dostawca danych (udostępniający dane) można zdefiniować wiele recipients dla dowolnego metastore Unity Catalog, ale jeśli chcesz udostępniać dane z wielu metastores dla określonego użytkownika lub grupy użytkowników, musisz zdefiniować adresata oddzielnie dla każdego magazynu metadanych. Adresat może mieć dostęp do wielu shares.
Jeśli dostawca usunie odbiorcę z metadanych Unity Catalog, odbiorca utraci dostęp do wszystkich shares, do których wcześniej mógł uzyskać dostęp.
Zobacz Tworzenie i zarządzanie danymi recipients dla Delta Sharing.
Otwieranie udostępniania w porównaniu z udostępnianiem usługi Databricks do usługi Databricks
W tej sekcji opisano dwa protokoły udostępniania z obszaru roboczego usługi Databricks, który jest włączony dla środowiska Unity Catalog.
Uwaga
W tej sekcji zakłada się, że dostawca znajduje się w obszarze roboczym Azure Databricks z włączonym Unity Catalog. Aby dowiedzieć się, jak skonfigurować serwer Delta Sharing typu open source do udostępniania z platformy innej niż Databricks lub z obszaru roboczego innego niż Unity Catalog, zobacz github.com/delta-io/delta-sharing.
Sposób, w jaki dostawca korzysta z funkcji delta sharing w usłudze Azure Databricks, zależy od tego, z kim udostępniają dane:
- Otwarte udostępnianie umożliwia udostępnianie danych dowolnemu użytkownikowi, niezależnie od tego, czy ma on dostęp do usługi Azure Databricks.
- udostępnianie usługi Databricks do usługi Databricks umożliwia udostępnianie danych użytkownikom usługi Azure Databricks, których obszar roboczy jest dołączony do magazynu metadanych Catalog unity, który różni się od Twoich. Usługa Databricks-to-Databricks obsługuje również udostępnianie notesów, woluminów i modeli, które nie jest dostępne w otwartym udostępnianiu.
Co to jest otwarte udostępnianie różnicowe?
Jeśli chcesz udostępniać dane użytkownikom spoza obszaru roboczego usługi Azure Databricks, niezależnie od tego, czy korzystają z usługi Databricks, możesz bezpiecznie udostępniać dane za pomocą funkcji udostępniania różnicowego. Jako dostawca danych generate token i bezpiecznie udostępniasz go adresatowi. Używają tokenu do uwierzytelniania i get dostępu do odczytu do tables uwzględnionych w shares, do którego udzielono im dostępu.
Recipients mogą uzyskiwać dostęp do udostępnionych danych przy użyciu wielu narzędzi obliczeniowych i platform, w tym:
- Azure Databricks
- Apache Spark
- Pandy
- Power BI
Aby uzyskać pełną list łączników Delta Sharing i informacje o sposobie ich używania, zapoznaj się z dokumentacją Delta Sharing.
Zobacz również Udostępnianie danych przy użyciu otwartego protokołu Delta Sharing (providers).
Co to jest udostępnianie funkcji delta usługi Databricks do usługi Databricks?
Jeśli chcesz udostępnić dane użytkownikom, którzy mają obszar roboczy usługi Databricks, który jest włączony dla środowiska Unity Catalog, możesz użyć funkcji Udostępniania różnicowego usługi Databricks do usługi Databricks. Udostępnianie danych z usługi Databricks do usługi Databricks umożliwia udostępnianie danych użytkownikom na innych kontach usługi Databricks, niezależnie od tego, czy są one na platformie AWS, platformie Azure, czy platformie GCP. Jest to również doskonały sposób na bezpieczne udostępnianie danych w różnych systemach Unity Catalogmetastores na własnym koncie w usłudze Databricks. Należy pamiętać, że nie ma potrzeby używania Delta Sharing do udostępniania danych między obszarami roboczymi dołączonymi do tego samego magazynu metadanych środowiska Unity Catalog, ponieważ w tym scenariuszu można użyć samego Unity Catalog do zarządzania dostępem do danych między obszarami roboczymi.
Jedną z zalet udostępniania usługi Databricks-to-Databricks jest to, że odbiorca udziału nie potrzebuje tokenu dostępu do udziału, a dostawca nie musi zarządzać tokenami adresatów. Zabezpieczenia połączenia udostępniania — w tym wszystkie weryfikacje tożsamości, uwierzytelnianie i inspekcja — są zarządzane całkowicie za pośrednictwem funkcji Delta Sharing i platformy Databricks. Kolejną zaletą jest możliwość udostępniania plików notesów usługi Databricks, views, Unity Catalogvolumesoraz modeli Unity Catalog.
Zobacz również Udostępnianie danych przy użyciu protokołu Delta Sharing Databricks-to-Databricks (dla providers).
Jak administratorzy dostawcy konfigurują set Delta Sharing?
Ta sekcja zawiera omówienie tego, w jaki sposób providers może umożliwić Delta Sharing oraz zainicjować udostępnianie z obszaru roboczego usługi Azure Databricks z włączonym katalogiem Unity Catalog. Aby uzyskać informacje na temat udostępniania różnicowego typu open source, zobacz github.com/delta-io/delta-sharing.
Udostępnianie Databricks-to-Databricks pomiędzy Unity Catalogimetastores w tym samym koncie jest zawsze włączone. Jeśli jesteś dostawcą, który chce włączyć udostępnianie usługi Delta w celu udostępniania danych w obszarach roboczych usługi Databricks na innych kontach lub klientach spoza usługi Databricks, administrator konta usługi Azure Databricks lub administrator magazynu metadanych wykonuje następujące kroki konfiguracji (na wysokim poziomie):
Włącz Delta Sharing dla metastore Unity Catalog, który zarządza danymi do udostępnienia.
Uwaga
Nie musisz włączać funkcji Delta Sharing w magazynie metadanych, jeśli zamierzasz jej używać do udostępniania danych tylko użytkownikom w innych Unity Catalogmetastores na twoim koncie. Udostępnianie między magazynami metadanych w ramach jednego konta Azure Databricks jest włączone domyślnie.
Zobacz sekcję Włączenie funkcji Delta Sharing w magazynie metadanych.
Utwórz udział zawierający zasoby danych zarejestrowane w metastore Unity Catalog.
Jeśli udostępniasz adresatowi spoza usługi Databricks (tzw. udostępnianie otwarte), możesz dołączyć tables w formacie Delta lub Parquet. Jeśli planujesz używać udostępniania Databricks do Databricks, możesz również dodać views, Unity Catalogvolumes, modele Unity Catalog oraz pliki notesu do wspólnego użycia.
Utwórz adresata.
Zobacz Tworzenie i zarządzanie danymi recipients dla Delta Sharing.
Jeśli odbiorca nie jest użytkownikiem usługi Databricks lub nie ma dostępu do obszaru roboczego usługi Databricks włączonego dla Unity Catalog, musisz użyć otwartego udziału. Dla tego adresata generowany jest element set oparty na tokenach credentials.
Jeśli odbiorca ma dostęp do obszaru roboczego usługi Databricks, który jest włączony dla Catalogaparatu Unity, możesz użyć databricks-to-Databricks sharingi nie są wymagane żadne credentials oparte na tokenach. Zażądasz udostępniania identifier od adresata i użyjesz go do nawiązania bezpiecznego połączenia.
Napiwek
Użyj siebie jako adresata testowego, aby wypróbować proces instalacji.
Grant dostęp odbiorcy do co najmniej jednego shares.
Zobacz Zarządzanie dostępem do danych Delta Sharing shares (dla providers).
Uwaga
Ten krok można również wykonać przez użytkownika niebędącego administratorem z uprawnieniami
USE SHARE
USE RECIPIENT
iSET SHARE PERMISSION
. Zobacz Catalog uprawnienia aparatu Unity i zabezpieczane obiekty.Wyślij adresatowi informacje potrzebne do nawiązania połączenia z udziałem (otwórz tylko udostępnianie).
Zobacz Wysyłanie adresata informacji o połączeniu.
Do otwartego udostępniania użyj bezpiecznego kanału, aby wysłać odbiorcy link aktywacyjny, który umożliwia im pobranie credentialsopartego na tokenach.
W przypadku udostępniania danych databricks-to-Databricks dane zawarte w udziale staną się dostępne w obszarze roboczym usługi Databricks odbiorcy, gdy tylko grant im dostęp do udziału.
Odbiorca może teraz uzyskiwać dostęp do udostępnionych danych.
Jak recipients uzyskać dostęp do udostępnionych danych?
Recipients uzyskać dostęp do udostępnionych zasobów danych w formacie tylko do odczytu. Udostępnione pliki notesu są tylko do odczytu, ale można je sklonować, a następnie zmodyfikować i uruchomić w obszarze roboczym adresata tak samo jak w przypadku każdego innego notesu.
Bezpieczny dostęp zależy od modelu udostępniania:
- Udostępnianie otwarte (odbiorca nie ma włączonego obszaru roboczego usługi Databricks dla środowiska Unity Catalog): odbiorca udostępnia poświadczenia za każdym razem, gdy uzyskuje dostęp do danych w wybranym narzędziu, w tym Apache Spark, pandas, Power BI, Databricks i wiele innych. Zobacz , jak odczytać dane udostępnione poprzez Delta Sharing (dla recipients).
- Databricks-to-Databricks (przestrzeń robocza odbiorcy jest aktywowana dla środowiska Unity Catalog): odbiorca uzyskuje dostęp do danych za pomocą Databricks. Mogą używać Unity Catalog, aby uzyskać grant i deny dostęp do innych użytkowników na swoim koncie Databricks. Zobacz Odczytywanie danych udostępnionych za pomocą funkcji Delta Sharing między usługami Databricks (dla recipients).
Za każdym razem, gdy dostawca danych aktualizuje dane tables lub volumes na własnym koncie usługi Databricks, aktualizacje są wyświetlane niemal w czasie rzeczywistym w systemie odbiorcy.
Jak śledzić, kto udostępnia i uzyskuje dostęp do udostępnionych danych?
providers danych w obszarach roboczych Azure Databricks z funkcją Unity Catalogmogą korzystać z rejestrowania inspekcji usługi Azure Databricks i systemu tables do monitorowania tworzenia oraz modyfikacji shares i recipients, a także monitorowania aktywności odbiorcy w shares. Zobacz Inspekcja i monitorowanie udostępniania danych.
Użytkownicy danych recipients, którzy korzystają z danych udostępnionych w obszarze roboczym usługi Databricks, mogą używać rejestrowania inspekcji i systemu tables usługi Databricks, aby zrozumieć, kto uzyskuje dostęp do danych. Zobacz Inspekcja i monitorowanie udostępniania danych.
Udostępnianie volumes
Możesz udostępnić volumes przy użyciu przepływu udostępniania usługi Databricks-to-Databricks. Zobacz Dodaj volumes do udziału (dla providers) i Odczytaj dane udostępnione za pomocą udostępniania Databricks-to-Databricks Delta (dla recipients) (dla recipients).
Udostępnianie modeli
Modele można udostępniać przy użyciu przepływu udostępniania usługi Databricks do usługi Databricks. Zobacz Dodaj modele do udziału (dla providers) i Odczytaj dane udostępnione przy użyciu Databricks-to-Databricks Delta Sharing (dla recipients) (dla recipients).
Udostępnianie notesów
Udostępnianie różnicowe umożliwia udostępnianie plików notesu przy użyciu przepływu udostępniania usługi Databricks-to-Databricks. Zobacz Dodaj pliki notatników do udostępnienia (dla providers) i Przeczytaj udostępnione notatniki (dla recipients).
Ograniczanie dostępu na poziomie wiersza i column
Możesz udostępniać dynamiczne views, które ograniczają dostęp do określonych table danych na podstawie właściwości adresata. Udostępnianie widoku dynamicznego wymaga przepływu udostępniania usługi Databricks do usługi Databricks. Zobacz Dodawanie dynamicznej views do udziału w celu filtrowania wierszy i columns.
Udostępnianie i przesyłanie strumieniowe usługi Delta
Udostępnianie różnicowe obsługuje przesyłanie strumieniowe ze strukturą platformy Spark. Dostawca może udostępnić table wraz z historią, aby odbiorca mógł używać go jako źródła Strukturalnego Przesyłania Strumieniowego, przetwarzając udostępnione dane przyrostowo i z małym opóźnieniem. Recipients można również wykonywać zapytania dotyczące podróży w czasie usługi Delta Laketables udostępnione historii.
Aby dowiedzieć się, jak udostępniać tables z historią, zobacz Dodaj tables do udziału. Aby dowiedzieć się, jak używać udostępnionych tables jako źródeł przesyłania strumieniowego, zobacz Zapytanie do table za pomocą Apache Spark Structured Streaming (aby uzyskać recipients w kontekście udostępniania typu Databricks-to-Databricks) lub Uzyskanie dostępu do udostępnionego table przy użyciu Spark Structured Streaming (w przypadku recipients otwartych danych do udostępnienia).
Zobacz również Przesyłanie strumieniowe w usłudze Azure Databricks.
Macierz obsługi funkcji usługi Delta Lake
Delta Sharing obsługuje większość funkcji Delta Lake podczas udostępniania table. Ta lista macierzy obsługi:
- Funkcje różnicowe, które wymagają określonych wersji środowiska Databricks Runtime, łącznika usługi Delta Sharing Spark typu open source lub łącznika języka Python udostępniania różnicowego typu open source.
- Częściowo obsługiwane funkcje.
Funkcja | Dostawca | Odbiorca usługi Databricks | Odbiorca typu open source |
---|---|---|---|
Wektory usuwania | Udostępnianie tables tej funkcji jest dostępne w publicznej wersji zapoznawczej. | — Środowisko Databricks Runtime 14.1 lub nowsze dla zapytań wsadowych — Środowisko Databricks Runtime 14.2 lub nowsze dla zapytań CDF i przesyłania strumieniowego |
— Delta Sharing Spark Connector 3.1+ — Delta Sharing Python Connector 1.1.0+ — Power BI w wersji 2.132.908.0+ |
mapowanie Column | Udostępnianie tables tej funkcji jest dostępne w publicznej wersji zapoznawczej. | — Środowisko Databricks Runtime 14.1 lub nowsze dla zapytań wsadowych — Środowisko Databricks Runtime 14.2 lub nowsze dla zapytań CDF i przesyłania strumieniowego |
— Delta Sharing Spark Connector 3.1+ — Delta Sharing Python Connector 1.1.0+ — Power BI w wersji 2.132.908.0+ |
Jednolity format | Udostępnianie tables tej funkcji jest dostępne w publicznej wersji zapoznawczej. | — Środowisko Databricks Runtime 14.1 lub nowsze dla zapytań wsadowych — Środowisko Databricks Runtime 14.2 lub nowsze dla zapytań CDF i przesyłania strumieniowego |
— Delta Sharing Spark Connector 3.1+ — Delta Sharing Python Connector 1.1.0+ — Power BI w wersji 2.132.908.0+ |
Punkt kontrolny w wersji 2 | Obsługiwane z ograniczeniami | Obsługiwane z ograniczeniami | Obsługiwane z ograniczeniami |
TimestampNTZ | Obsługiwane | Databricks Runtime 14.1+ | Delta Sharing Spark Connector 3.3+ |
Klastrowanie liquid | Obsługiwane z ograniczeniami | Obsługiwane z ograniczeniami | Obsługiwane z ograniczeniami |
Delta Sharing (udostępnianie różnicowe) — często zadawane pytania
Poniżej przedstawiono często zadawane pytania dotyczące udostępniania różnicowego.
Czy potrzebuję Unity Catalog, aby korzystać z Delta Sharing?
Nie, nie potrzebujesz modułu Unity Catalog do udostępniania danych (jako dostawca) ani do korzystania z udostępnionych danych (jako odbiorca). Jednak środowisko Unity Catalog zapewnia korzyści, takie jak obsługa udostępniania zasobów innych niż tabelaryczne i sztucznej inteligencji, wbudowane zarządzanie, prostota i wydajność zapytań.
Providers mogą udostępniać dane na dwa sposoby:
Umieść zasoby do udostępniania pod zarządzaniem Unity Catalog i udostępnij je za pomocą wbudowanego serwera Azure Databricks Delta Sharing.
Nie trzeba migrować wszystkich zasobów do środowiska Unity Catalog. Potrzebujesz tylko jednego obszaru roboczego usługi Azure Databricks, który jest włączony dla środowiska Unity Catalog do zarządzania zasobami, które chcesz udostępnić. Na niektórych kontach nowe obszary robocze są włączane automatycznie dla środowiska Unity Catalog. Zobacz Automatyczne włączenie programu Unity Catalog.
Zaimplementuj otwarty serwer udostępniania różnicowego, aby udostępniać dane bez konieczności używania konta usługi Azure Databricks.
Recipients może korzystać z danych na dwa sposoby:
Bez obszaru roboczego usługi Databricks. Użycie łączników udostępniania różnicowego typu open source, które są dostępne dla wielu platform danych, w tym usługi Power BI, biblioteki pandas i platformy Apache Spark typu open source. Zobacz
, jak odczytać dane udostępnione za pomocą otwartego udostępniania Delta Sharing (dla orazprojektu open source Delta Sharing) . W obszarze roboczym usługi Databricks. Przestrzenie robocze adresata nie muszą być aktywowane na potrzeby Unity Catalog, ale umożliwiają lepsze zarządzanie, prostszą konfigurację i wyższą wydajność, jeśli są włączone.
Firmy, które chcą tych korzyści, nie muszą migrować wszystkich zasobów do Unity Catalog. Potrzebujesz tylko jednego obszaru roboczego usługi Azure Databricks, który jest włączony dla środowiska Unity Catalog do zarządzania zasobami udostępnionymi Tobie. Na niektórych kontach nowe obszary robocze są włączane automatycznie dla środowiska Unity Catalog. Zobacz Automatyczne włączenie programu Unity Catalog.
Zobacz Odczytywanie danych udostępnionych przy użyciu funkcji Delta Sharing open sharing (w przypadku recipients) i Odczytywanie danych udostępnionych przy użyciu Databricks-to-Databricks Delta Sharing (w przypadku recipients).
Czy muszę być klientem usługi Databricks, aby korzystać z funkcji Delta Sharing (udostępnianie różnicowe)?
Nie, Delta Sharing (udostępnianie różnicowe) jest protokołem otwartym. Dane spoza usługi Databricks można udostępniać recipients na dowolnej platformie danych. Providers można skonfigurować otwarty serwer Delta Sharing do udostępniania z dowolnej platformy obliczeniowej. Recipients mogą używać udostępnionych danych przy użyciu łączników Delta Sharing typu open source dla szerokiej gamy produktów związanych z danymi, w tym usługi Power BI, biblioteki pandas i open source platformy Spark.
Jednak korzystanie z Delta Sharing w usłudze Azure Databricks, szczególnie udostępnianie z obszaru roboczego z obsługą Unity Catalog, ma wiele zalet.
Aby uzyskać szczegółowe informacje, zobacz pierwsze pytanie w tym często zadawanych pytaniach.
Czy Delta Sharing (udostępnianie różnicowe) powoduje naliczanie kosztów ruchu wychodzącego?
Udostępnianie różnicowe w regionie nie wiąże się z żadnymi kosztami ruchu wychodzącego. W przeciwieństwie do innych platform udostępniania danych udostępnianie różnicowe nie wymaga replikacji danych. Ten model ma wiele zalet, ale oznacza to, że dostawca chmury może pobierać opłaty za ruch wychodzący podczas udostępniania danych w chmurach lub regionach. Usługa Azure Databricks obsługuje udostępnianie z usługi Cloudflare R2, która nie wiąże się z opłatami za ruch wychodzący oraz udostępnia inne narzędzia i zalecenia do monitorowania i unikania opłat za ruch wychodzący. Zobacz Monitorowanie i zarządzanie kosztami ruchu wychodzącego Delta Sharing (dla providers).
Czy odbiorca providersrevoke ma dostęp?
Tak, dostęp adresata można odwołać na żądanie i na określonych poziomach szczegółowości. Możesz deny dostęp adresata do określonych shares i określonych adresów IP, filtrować dane tabelaryczne adresata, revoke tokeny adresata i całkowicie usuwać recipients. Zobacz Revoke dostęp odbiorcy do zasobu i Tworzenie i zarządzanie danymi recipients dla Delta Sharing.
Czy używanie wstępnie podpisanych adresów URL nie jest niebezpieczne?
Funkcja Delta Sharing używa wstępnie podpisanych adresów URL w celu zapewnienia tymczasowego dostępu do pliku w magazynie obiektów. Przekazywane są wyłącznie tym recipients, które już mają dostęp do udostępnionych danych. Są bezpieczne, ponieważ są krótkotrwałe i nie rozszerzają poziomu dostępu poza to, co zostało już przyznane recipients.
Czy tokeny używane w otwartym protokole udostępniania Delta Sharing są bezpieczne?
Udostępnianie różnicowe umożliwia udostępnianie międzyplatformowe — w przeciwieństwie do innych dostępnych platform udostępniania danych — protokół udostępniania wymaga otwartego tokenu. Providers może zapewnić bezpieczeństwo tokenu, konfigurując okres istnienia tokenu, ustawiając mechanizmy kontroli sieci i odwołując dostęp na żądanie. Ponadto token nie rozszerza poziomu dostępu poza tym, co recipients zostały już przyznane. Zobacz Zagadnienia dotyczące bezpieczeństwa tokenów.
Jeśli nie chcesz używać tokenów do zarządzania dostępem do sharesadresata, użyj databricks-to-Databricks sharing lub skontaktuj się z zespołem konta usługi Databricks, aby uzyskać alternatywy.
Czy udostępnianie funkcji delta obsługuje udostępnianie widoku?
Tak, udostępnianie funkcji delta obsługuje udostępnianie widoków. Zobacz Dodaj views do udziału.
Aby dowiedzieć się więcej o planowanych ulepszeniach wyświetlania udostępniania, skontaktuj się z zespołem ds. kont usługi Databricks.
Ograniczenia
- Dane tabelaryczne muszą znajdować się w formacie delta table. Możesz łatwo przekonwertować Parquet tables na Delta — i z powrotem. Zobacz CONVERT TO DELTA.
- Funkcja Delta Sharing obsługuje tables, które korzystają z klastrowania cieczy i punktu kontrolnego w wersji 2, z następującymi ograniczeniami:
- Recipients może uruchamiać wyłącznie zapytania typu migawkowego. Nie mogą uruchamiać zestawienia zmian danych (CDF) ani zapytań przesyłanych strumieniowo.
- Providers nie można udostępnić table z filtrowaniem partition.
- Providers nie może współużytkować R2 tables z płynnym klastrowaniem i punktem kontrolnym V2.
- Table ograniczenia (ograniczenia klucza podstawowego i obcego) nie są dostępne w trybie współdzielonym tables.
- Współużytkowalne views muszą być zdefiniowane w delcie tables lub w innych współużytkowalnych views. Zobacz Dodaj views do udziału (dla providers) i Odczytaj udostępniony views (dla recipients).
- Udostępnianie notesów jest obsługiwane tylko w usłudze Databricks-to-Databricks sharing. Zobacz Dodaj pliki notesu do udostępnienia oraz Przeczytaj dane udostępnione za pomocą Databricks-to-Databricks Delta Sharing (dla recipients).
- Udostępnianie woluminów jest obsługiwane tylko w przypadku udostępniania między platformami Databricks. Zobacz Dodaj volumes do udziału (dla providers) i Odczytaj dane udostępnione za pomocą Databricks-to-Databricks Delta Sharing (dla recipients).
- Udostępnianie modeli jest obsługiwane tylko w przypadku udostępniania między platformami Databricks. Zobacz Dodawanie modeli do zasobu współdzielonego (w przypadku providers) i Odczyt danych udostępnionych za pomocą Databricks-to-Databricks Delta Sharing (dla recipients).
- Istnieją limity liczby plików w metadanych dozwolonych dla udostępnionej table. Aby dowiedzieć się więcej, zobacz Resource limit przekroczono błędy.
- Nie można zaimportować schematów o nazwie
information_schema
do magazynu metadanych Catalog Unity, ponieważ nazwa schema jest zarezerwowana w systemie Unity Catalog. - Udostępnianie
SHALLOW CLONE
tables nie jest obsługiwane przez Delta Sharing. Usługa Azure Databricks nie obsługuje wstępnego przypisania adresów URL dla dzienników delty odwołujących się do ścieżek bezwzględnych.
Zobacz również macierz obsługi funkcji usługi Delta Lake.
Przydziały zasobów
Usługa Azure Databricks wymusza limity przydziału zasobów dla wszystkich zabezpieczanych obiektów funkcji Delta Sharing. Te limity przydziału są wymienione w temacie Limity zasobów. Jeśli spodziewasz się przekroczyć te limity zasobów, skontaktuj się z zespołem konta usługi Azure Databricks.
Można monitorować użycie swojej kwoty przy użyciu interfejsów API kwot zasobów Unity Catalog. Zobacz jak monitorować użycie limitów przydziału zasobów Catalog w Unity.
Następne kroki
- Włączanie konta usługi Databricks na potrzeby udostępniania różnicowego
- Utwórz shares
- Utwórz recipients
- Dowiedz się więcej o modelach udostępniania otwartych i udostępniania usługi Databricks do usługi Databricks
- Dowiedz się, jak recipients uzyskać dostęp do danych udostępnionych