Udostępnij za pośrednictwem


Udostępnianie danych przy użyciu protokołu Delta Sharing Databricks-to-Databricks (dla dostawców)

W tym artykule omówiono sposób używania funkcji udostępniania różnicowego usługi Databricks do usługi Databricks w celu bezpiecznego udostępniania danych wszystkim użytkownikom usługi Databricks, niezależnie od konta lub hosta w chmurze, o ile ten użytkownik ma dostęp do obszaru roboczego włączonego dla wykazu aparatu Unity.

Uwaga

Jeśli jesteś adresatem danych (użytkownik lub grupa użytkowników, którym są udostępniane dane usługi Databricks), zobacz Access data shared with you using Delta Sharing (dla adresatów).

Kto powinien używać funkcji udostępniania różnicowego usługi Databricks do usługi Databricks?

Istnieją trzy sposoby udostępniania danych przy użyciu funkcji udostępniania różnicowego.

  1. Protokół udostępniania usługi Databricks-to-Databricks, opisany w tym artykule, umożliwia udostępnianie danych z obszaru roboczego obsługującego wykaz aparatu Unity użytkownikom, którzy mają również dostęp do obszaru roboczego usługi Databricks z obsługą wykazu aparatu Unity.

    To podejście korzysta z serwera udostępniania różnicowego wbudowanego w usługę Azure Databricks i zapewnia obsługę udostępniania notesów, ładu danych wykazu aparatu Unity, inspekcji i śledzenia użycia zarówno dla dostawców, jak i adresatów. Integracja z katalogiem aparatu Unity upraszcza konfigurowanie i nadzór zarówno dla dostawców, jak i odbiorców oraz poprawia wydajność.

  2. Otwarty protokół udostępniania usługi Databricks umożliwia udostępnianie danych zarządzanych w obszarze roboczym usługi Databricks z obsługą wykazu aparatu Unity użytkownikom na dowolnej platformie obliczeniowej.

    Zobacz Udostępnianie danych przy użyciu protokołu udostępniania otwartego udostępniania różnicowego (dla dostawców).

  3. Implementacja zarządzana przez klienta serwera udostępniania różnicowego typu open source umożliwia udostępnianie z dowolnej platformy do dowolnej platformy, niezależnie od tego, czy usługa Databricks, czy nie.

    Zobacz github.com/delta-io/delta-sharing.

Aby zapoznać się z wprowadzeniem do udostępniania różnicowego i uzyskać więcej informacji na temat tych trzech podejść, zobacz Co to jest udostępnianie różnicowe?.

Przepływ pracy udostępniania różnicowego usługi Databricks w usłudze Databricks

Ta sekcja zawiera ogólne omówienie przepływu pracy udostępniania usługi Databricks to-Databricks z linkami do szczegółowej dokumentacji dla każdego kroku.

W modelu udostępniania różnicowego usługi Databricks do usługi Databricks:

  1. Odbiorca danych udostępnia dostawcy danych unikatowy identyfikator udostępniania magazynu metadanych wykazu aparatu Unity usługi Databricks dołączony do obszaru roboczego usługi Databricks, którego odbiorca (który reprezentuje użytkownika lub grupę użytkowników) będzie używać do uzyskiwania dostępu do danych udostępnianych przez dostawcę danych.

    Aby uzyskać szczegółowe informacje, zobacz Krok 1: Żądanie identyfikatora udostępniania odbiorcy.

  2. Dostawca danych tworzy udział w magazynie metadanych wykazu aparatu Unity dostawcy. Ten nazwany obiekt zawiera kolekcję tabel, widoków, woluminów i notesów zarejestrowanych w magazynie metadanych.

    Aby uzyskać szczegółowe informacje, zobacz Tworzenie udziałów i zarządzanie nimi na potrzeby udostępniania różnicowego.

  3. Dostawca danych tworzy obiekt odbiorcy w magazynie metadanych wykazu aparatu Unity dostawcy. Ten nazwany obiekt reprezentuje użytkownika lub grupę użytkowników, którzy będą uzyskiwać dostęp do danych zawartych w udziale, wraz z identyfikatorem udostępniania magazynu metadanych wykazu aparatu Unity dołączonym do obszaru roboczego, którego użytkownik lub grupa użytkowników będą używać do uzyskiwania dostępu do udziału. Identyfikator udostępniania to identyfikator klucza, który umożliwia bezpieczne połączenie.

    Aby uzyskać szczegółowe informacje, zobacz Krok 2. Tworzenie adresata.

  4. Dostawca danych udziela adresatowi dostępu do udziału.

    Aby uzyskać szczegółowe informacje, zobacz Zarządzanie dostępem do udziałów danych usługi Delta Sharing (dla dostawców).

  5. Udział staje się dostępny w obszarze roboczym usługi Databricks odbiorcy, a użytkownicy mogą uzyskiwać do niego dostęp przy użyciu Eksploratora wykazu, interfejsu wiersza polecenia usługi Databricks lub poleceń SQL w notesie usługi Azure Databricks lub edytorze zapytań SQL usługi Databricks.

    Aby uzyskać dostęp do tabel, widoków, woluminów i notesów w udziale, administrator magazynu metadanych lub użytkownik uprzywilejowany musi utworzyć wykaz na podstawie udziału. Następnie ten użytkownik lub inny użytkownik, któremu przyznano odpowiednie uprawnienia, może przyznać innym użytkownikom dostęp do katalogu i obiektów w wykazie. Udzielanie uprawnień do udostępnionych katalogów i zasobów danych działa tak samo jak w przypadku innych zasobów zarejestrowanych w wykazie aparatu Unity, z ważnym rozróżnieniem polega na tym, że użytkownicy mogą mieć dostęp tylko do odczytu dla obiektów w katalogach utworzonych na podstawie udziałów udostępniania różnicowego.

    Notesy udostępnione działają na poziomie wykazu, a każdy użytkownik z USE CATALOG uprawnieniami w wykazie może uzyskać do nich dostęp.

    Aby uzyskać szczegółowe informacje, zobacz Read data shared using Databricks-to-Databricks Delta Sharing (dla adresatów).

zwiększanie wydajności odczytu tabeli za pomocą udostępniania historii

Ważny

Ta funkcja jest dostępna w wersji testowej.

Udostępnianie tabel Databricks do Databricks może zwiększyć wydajność, poprzez umożliwienie udostępniania historii. Udostępnianie historii poprawia wydajność poprzez wykorzystanie tymczasowych poświadczeń zabezpieczeń z magazynu w chmurze, które są ograniczone do katalogu głównego współdzielonej tabeli Delta dostawcy, co prowadzi do wydajności porównywalnej z bezpośrednim dostępem do tabel źródłowych.

  • W przypadku nowych dostępów do tabeli określ WITH HISTORY podczas tworzeniu dostępu do tabeli. Zobacz Dodawanie tabel do udziału.
  • W przypadku istniejących udziałów tabel należy zmienić ustawienia udziału, aby udostępniać historię tabeli. Zobacz Aktualizacja akcji.

Uwaga

Tabele z włączonym partycjonowaniem nie otrzymują korzyści wydajnościowych z udostępniania historii. Zobacz Określanie partycji tabeli do udostępniania

Prywatność danych dotyczących udostępniania historii

Dostawcy powinni mieć na uwadze, że historia udostępniania między usługami Databricks zapewnia odbiorcom Delta Sharing tymczasowy dostęp do odczytu zarówno do plików danych, jak i dziennika Delta. Dziennik Delta zawiera historię zatwierdzeń dla każdej wersji tabeli, informacje o osobie zatwierdzającej (podobne do historii zatwierdzeń w GitHub) oraz usunięte dane, które nie zostały usunięte.