Udostępnij za pośrednictwem


Tworzenie tabel wyjściowych w usłudze Databricks Clean Rooms i praca z nimi

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

W tym artykule przedstawiono tabele wyjściowe, które są tymczasowymi tabelami tylko do odczytu wygenerowanymi przez uruchomienie notesu i udostępnionymi magazynowi metadanych wykazu aparatu Unity modułu uruchamiającego notesy. W tym artykule opisano sposób używania notesu do tworzenia tabel wyjściowych i sposobu odczytywania tych tabel wyjściowych w magazynie metadanych wykazu aparatu Unity.

Omówienie tabel wyjściowych

Tabele wyjściowe umożliwiają tymczasowe zapisywanie danych wyjściowych notesów uruchamianych w czystym pomieszczeniu do katalogu danych wyjściowych w magazynie metadanych wykazu aparatu Unity, w którym można udostępnić dane członkom zespołu, którzy nie mają możliwości samodzielnego uruchamiania notesów. Za pomocą zadań usługi Azure Databricks można również uruchamiać notesy i wykonywać zadania w tabelach wyjściowych. W połączeniu z typem zadania notesu Clean Room i obsługą wartości zadań tabele wyjściowe umożliwiają tworzenie złożonych przepływów pracy, które zależą od notesów w pomieszczeniu clean room.

Tabele wyjściowe są tylko do odczytu.

Tylko określona jednostka główna (użytkownik, grupa lub jednostka usługi), która uruchamia notes, ma domyślny dostęp do odczytu do tabeli wyjściowej. Brak dostępu do zapisu. Administrator magazynu metadanych może udzielić dostępu do odczytu innym podmiotom zabezpieczeń na koncie usługi Azure Databricks przy użyciu standardowych uprawnień wykazu aparatu Unity.

Tabele wyjściowe są przechowywane przez 30 dni w domyślnej lokalizacji przechowywania w centralnym pomieszczeniu oraz udostępniane magazynowi metadanych współpracownika przy użyciu funkcji Udostępniania różnicowego. Jeśli chcesz zachować tabelę danych wyjściowych przez ponad 30 dni, musisz skopiować ją do magazynu lokalnego.

Każde uruchomienie notesu tworzy nowy schemat w wykazie danych wyjściowych. Nowe uruchomienia nie mogą dołączać istniejącej tabeli wyjściowej.

Ważne

Tabele wyjściowe są obsługiwane tylko wtedy, gdy centralne czyste pomieszczenie jest hostowane na platformie AWS. Jednak współpracownicy usługi Databricks we wszystkich trzech chmurach — AWS, Azure i Google Cloud — mogą udostępniać notesy tworzące tabele wyjściowe i odczytywać tabele wyjściowe generowane podczas uruchamiania udostępnionych notesów. Współpracownicy usługi Google Cloud muszą być uczestnikami prywatnej wersji zapoznawczej funkcji Clean Rooms.

Tworzenie tabeli wyjściowej

Aby utworzyć tabelę danych wyjściowych, użyj parametrów cr_output_catalog i cr_output_schema w trzyczęściowej przestrzeni nazw tabeli. Każde uruchomienie notesu tworzy nowy schemat.

W poniższym przykładzie komórka notesu tworzy tabelę wyjściową o nazwie overlapping_users w wykazie danych wyjściowych collboratora, który zawiera listę użytkowników, których adres e-mail jest wyświetlany w collaborator.advertiser.profiles tabelach i creator.publisher.profiles .

CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email

Odczytywanie tabeli wyjściowej

Tabele wyjściowe są wyświetlane w wykazie udostępnionym w magazynie metadanych modułu uruchamiającego notesy. W okienku Wykaz eksploratora wykazu są one wyświetlane na liście Wykazy udostępnione .

Odczytywanie tabeli wyjściowej przypomina odczytywanie dowolnej innej tabeli w wykazie aparatu Unity. Musisz mieć SELECT w tabeli, USE CATALOG w udostępnionym wykazie danych wyjściowych i USE SCHEMA w schemacie generowanym automatycznie. Użytkownik, który uruchomił notes, który utworzył tabelę, domyślnie ma te uprawnienia.

Przed rozpoczęciem

W tej sekcji opisano wymagania dotyczące chmury, konfiguracji i obliczeń dotyczące odczytywania tabel wyjściowych.

Wymagania dotyczące chmury

Chociaż centralne czyste pomieszczenie musi znajdować się na platformie AWS, aby obsługiwać tabele wyjściowe, obszary robocze współpracowników mogą znajdować się w dowolnej z trzech chmur: AWS, Azure lub Google Cloud. Współpracownicy usługi Google Cloud muszą być uczestnikami prywatnej wersji zapoznawczej funkcji Clean Rooms.

Wymaganie dotyczące wykazu danych wyjściowych udostępnionych

Zanim będzie można odczytać tabele wyjściowe, użytkownik musi utworzyć wykaz, który je przechowuje. Należy to zrobić tylko raz na czysty pokój.

Wymagane uprawnienia: EXECUTE_CLEAN_ROOM_TASK

  1. W obszarze roboczym usługi Azure Databricks kliknij pozycję Ikona wykazuWykaz.
  2. Na stronie Szybki dostęp kliknij przycisk Wyczyść pokoje>.
  3. Wybierz czysty pokój z listy.
  4. W okienku po prawej stronie w obszarze Dane wyjściowe kliknij pozycję Utwórz wykaz.
  5. Wprowadź nazwę wykazu danych wyjściowych lub zaakceptuj wartość domyślną, czyli <clean-room-name>_output.

Wykaz danych wyjściowych zostanie wyświetlony na liście wykazów udostępnionych w okienku Wykaz eksploratora wykazu . Każdy czysty pokój, w którym uczestniczysz, może mieć jeden udostępniony wykaz danych wyjściowych w magazynie metadanych.

Wymagania dotyczące obliczeń

Zapytania dotyczące tabel wyjściowych wymagają przetwarzania bezserwerowego. Zobacz Connect to serverless compute (Nawiązywanie połączenia z bezserwerową obliczeniami).

Uprawnienia wymagane do odczytu tabeli wyjściowej

Użytkownik, który uruchomił notes, który utworzył tabelę danych wyjściowych, ma domyślnie uprawnienia do odczytu z tabeli wyjściowej. Wszyscy inni użytkownicy muszą mieć przyznane im następujące uprawnienia:

  • SELECT w tabeli
  • USE CATALOG w wykazie danych wyjściowych
  • USE SCHEMA w schemacie danych wyjściowych

Uruchamianie notesu

Aby wygenerować udostępnione tabele wyjściowe w katalogu danych wyjściowych, użytkownik mający dostęp do czystego pokoju musi uruchomić notes. Zobacz Uruchamianie notesów w czystych pokojach. Każde uruchomienie notesu tworzy nowy schemat wyjściowy i tabelę.

Napiwek

Za pomocą zadań usługi Azure Databricks można uruchamiać notesy i wykonywać zadania w tabelach wyjściowych, włączając złożone przepływy pracy. Zobacz Use Azure Databricks Workflows to run clean room notebooks (Używanie przepływów pracy usługi Azure Databricks do uruchamiania notesów w pomieszczeniu czystych).

Znajdowanie i wyświetlanie tabeli wyjściowej

Użytkownik, który uruchamia notes, który tworzy tabelę danych wyjściowych, może znaleźć link do tabeli wyjściowej w historii uruchamiania notesu i uruchomić strony szczegółów w interfejsie użytkownika clean rooms . W obu przypadkach link znajduje się w polu Schemat danych wyjściowych. Zobacz Monitorowanie przebiegów notesu czystego pokoju.

Historia uruchamiania:

Link schematu wyjściowego w historii uruchamiania

Szczegóły przebiegu:

Link schematu wyjściowego w szczegółach przebiegu

Wykaz danych wyjściowych można również znaleźć na liście katalogów udostępnionych w okienku Wykaz eksploratora wykazu.

Ograniczenia

Oprócz wymagań wymienionych w sekcji Przegląd tabel wyjściowych i Przed rozpoczęciem tabel wyjściowych tabele wyjściowe mają następujące ograniczenia:

  • Tabele wyjściowe są obsługiwane tylko wtedy, gdy centralne czyste pomieszczenie jest hostowane na platformie AWS i po wydaniu funkcji tabeli wyjściowej.
  • Obsługiwane są tylko tabele. Woluminy i widoki, na przykład, nie są.
  • Możesz utworzyć maksymalnie 100 tabel wyjściowych na notes.