Udostępnij za pośrednictwem


Uruchamianie zapytań federacyjnych w usłudze Microsoft Azure Synapse

W tym artykule opisano sposób konfigurowania usługi Lakehouse Federation w celu uruchamiania zapytań federacyjnych na danych usługi Azure Synapse (SQL Data Warehouse), które nie są zarządzane przez usługę Azure Databricks. Aby dowiedzieć się więcej o federacji Lakehouse, zobacz Co to jest Federacja Lakehouse?.

Aby nawiązać połączenie z bazą danych Azure Synapse (SQL Data Warehouse) przy użyciu Lakehouse Federation, należy utworzyć następujące elementy w metasklepie Unity Catalog w Azure Databricks:

  • Połączenie z bazą danych usługi Azure Synapse (SQL Data Warehouse).
  • katalogu obcego, który dubluje bazę danych usługi Azure Synapse (SQL Data Warehouse) w wykazie aparatu Unity, dzięki czemu można użyć składni zapytań katalogu aparatu Unity i narzędzi do zapewniania ładu danych w celu zarządzania dostępem użytkowników usługi Azure Databricks do bazy danych.

Zanim rozpoczniesz

Wymagania dotyczące obszaru roboczego:

  • Obszar roboczy włączony dla Unity Catalog.

Wymagania dotyczące obliczeń:

  • Łączność sieciowa od zasobu obliczeniowego do docelowych systemów baz danych. Zobacz Zalecenia dotyczące sieci dla usługi Lakehouse Federation.
  • Środowisko obliczeniowe usługi Azure Databricks musi używać środowiska Databricks Runtime 13.3 LTS lub nowszego i udostępnionej lub trybu dostępu pojedynczego użytkownika.
  • Magazyny SQL muszą być w wersji pro lub bezserwerowej i muszą używać wersji 2023.40 lub nowszej.

Wymagane uprawnienia:

  • Aby utworzyć połączenie, musisz być administratorem metastore'u lub użytkownikiem z uprawnieniami CREATE CONNECTION w metastore Katalogu Unity dołączonym do obszaru roboczego.
  • Aby utworzyć katalog obcy, musisz mieć uprawnienie CREATE CATALOG w magazynie metadanych i być właścicielem połączenia lub mieć uprawnienie CREATE FOREIGN CATALOG w połączeniu.

Dodatkowe wymagania dotyczące uprawnień są określone w każdej sekcji opartej na zadaniach.

Tworzenie połączenia

Połączenie określa ścieżkę dostępu i dane uwierzytelniające do zewnętrznego systemu bazodanowego. Aby utworzyć połączenie, możesz użyć Eksploratora wykazu lub polecenia CREATE CONNECTION SQL w notesie usługi Azure Databricks lub edytorze zapytań SQL usługi Databricks.

Uwaga

Do utworzenia połączenia można również użyć interfejsu API REST usługi Databricks lub interfejsu wiersza polecenia usługi Databricks. Zobacz POST /api/2.1/unity-catalog/connections i polecenia Unity Catalog .

Wymagane uprawnienia: administrator magazynu metadanych lub użytkownik z uprawnieniami CREATE CONNECTION .

Eksplorator wykazu

  1. W obszarze roboczym usługi Azure Databricks kliknij ikonę katalogu Catalog.

  2. W górnej części okienka katalogu kliknij ikonę Dodaj lub plus,Ikona Dodaj i wybierz pozycję Dodaj połączenie z menu.

    Alternatywnie, na stronie Szybki dostęp kliknij przycisk Zewnętrzne dane >, przejdź do karty Połączenia, a następnie kliknij przycisk Utwórz połączenie.

  3. Na stronie Podstawy połączenia w kreatorze Konfigurowanie połączenia wprowadź przyjazną dla użytkownika nazwę połączenia .

  4. Wybierz typ połączenia SQLDW.

  5. (Opcjonalnie) Dodaj komentarz.

  6. Kliknij przycisk Dalej.

  7. Na stronie Authentication wprowadź następujące właściwości połączenia dla wystąpienia usługi Azure Synapse:

    • Host: na przykład sqldws-demo.database.windows.net.
    • Port: na przykład 1433
    • Użytkownik
    • Hasło
    • certyfikat serwera zaufania: jest to domyślnie zaznaczone. Po wybraniu warstwa transportu używa protokołu SSL do szyfrowania kanału i pomija łańcuch certyfikatów w celu zweryfikowania zaufania. Pozostaw to ustawienie domyślne, chyba że istnieje określona potrzeba obejścia weryfikacji zaufania.
  8. Kliknij pozycję Utwórz połączenie.

  9. Na stronie Catalog basics wprowadź nazwę katalogu obcego. Wykaz obcy odzwierciedla bazę danych w zewnętrznym systemie danych, dzięki czemu można wykonywać zapytania o dostęp do danych w tej bazie danych i zarządzać nimi przy użyciu usług Azure Databricks i Unity Catalog.

  10. (Opcjonalnie) Kliknij pozycję Testuj połączenie , aby potwierdzić, że działa.

  11. Kliknij Utwórz katalog.

  12. Na stronie Access wybierz obszary robocze, w których użytkownicy mogą uzyskiwać dostęp do utworzonego katalogu. Możesz wybrać pozycję Wszystkie obszary robocze mają dostęplub kliknij Przypisz do obszarów roboczych, wybierz obszary robocze, a następnie kliknij Przypisz.

  13. Zmień właściciela , który będzie mógł zarządzać dostępem do wszystkich obiektów w wykazie. Zacznij wpisywać nazwę podmiotu w polu tekstowym, a następnie kliknij ten podmiot w wynikach wyszukiwania.

  14. Udziel uprawnień na katalogu. Kliknij pozycję Udziel:

    1. Określ główne podmioty, które będą miały dostęp do obiektów w wykazie. Zacznij wpisywać nazwę podmiotu w polu tekstowym, a następnie kliknij ten podmiot w wynikach wyszukiwania.
    2. Wybierz ustawienia wstępne uprawnień, aby przyznać je każdemu podmiotowi. Wszyscy użytkownicy konta domyślnie otrzymują BROWSE.
      • Wybierz Czytnik danych z rozwijanej listy, aby nadać uprawnienia read dla obiektów w katalogu.
      • Wybierz pozycję Edytor danych z menu rozwijanego, aby przyznać read i modify uprawnienia do obiektów w wykazie.
      • Ręcznie wybierz uprawnienia do udzielenia.
    3. Kliknij pozycję Udziel.
  15. Kliknij przycisk Dalej.

  16. Na stronie Metadane określ pary klucz-wartość tagów. Aby uzyskać więcej informacji, zobacz Zastosuj tagi do obiektów zabezpieczalnych w Unity Catalog.

  17. (Opcjonalnie) Dodaj komentarz.

  18. Kliknij Zapisz.

SQL

Uruchom następujące polecenie w notesie lub edytorze zapytań SQL usługi Databricks.

CREATE CONNECTION <connection-name> TYPE sqldw
OPTIONS (
  host '<hostname>',
  port '<port>',
  user '<user>',
  password '<password>'
);

Zalecamy używanie tajnych danych usługi Azure Databricks zamiast ciągów zwykłego tekstu dla poufnych wartości, takich jak poświadczenia. Na przykład:

CREATE CONNECTION <connection-name> TYPE sqldw
OPTIONS (
  host '<hostname>',
  port '<port>',
  user secret ('<secret-scope>','<secret-key-user>'),
  password secret ('<secret-scope>','<secret-key-password>')
)

Aby uzyskać informacje na temat konfigurowania wpisów tajnych, zobacz Zarządzanie wpisami tajnymi.

Tworzenie wykazu obcego

Uwaga

Jeśli używasz interfejsu użytkownika do utworzenia połączenia ze źródłem danych, tworzenie obcego katalogu zostanie uwzględnione i możesz pominąć ten krok.

Wykaz obcy odzwierciedla bazę danych w zewnętrznym systemie danych, dzięki czemu można wykonywać zapytania o dostęp do danych w tej bazie danych i zarządzać nimi przy użyciu usług Azure Databricks i Unity Catalog. Aby utworzyć wykaz obcy, należy użyć połączenia ze źródłem danych, które zostało już zdefiniowane.

Aby utworzyć wykaz obcy, możesz użyć Eksploratora wykazu lub polecenia CREATE FOREIGN CATALOG SQL w notesie usługi Azure Databricks lub edytorze zapytań SQL.

Do utworzenia katalogu można również użyć interfejsu API REST usługi Databricks lub interfejsu wiersza polecenia usługi Databricks. Zobacz POST /api/2.1/unity-catalog/catalogs i polecenia Unity Catalog.

Wymagane uprawnienia:CREATE CATALOG uprawnienie do magazynu metadanych i własność połączenia lub CREATE FOREIGN CATALOG uprawnienia do połączenia.

Eksplorator wykazu

  1. W obszarze roboczym usługi Azure Databricks kliknij ikonę Katalogu Katalog, aby otworzyć Eksploratora Katalogu.

  2. W górnej części okienka katalogu kliknij ikonę Dodaj lub plusIkona Dodaj i wybierz Dodaj wykaz z menu.

    Alternatywnie na stronie Szybki dostęp kliknij przycisk Wykazy, a następnie kliknij przycisk Utwórz katalog.

  3. Postępuj zgodnie z instrukcjami dotyczącymi tworzenia katalogów obcych w Tworzenie katalogów.

SQL

Uruchom następujące polecenie SQL w notesie lub edytorze zapytań SQL. Elementy w nawiasach kwadratowych są opcjonalne. Zastąp wartości symboli zastępczych:

  • <catalog-name>: nazwa wykazu w usłudze Azure Databricks.
  • <connection-name>: obiekt połączenia określający źródło danych, ścieżkę i poświadczenia dostępu.
  • <database-name>: nazwa bazy danych, którą chcesz dublować jako wykaz w usłudze Azure Databricks.
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');

Obsługiwane wypychania

Obsługiwane są następujące wypychania:

  • Filtry
  • Projekcje
  • Limit
  • Agregacje (Average, Count, Max, Min, StddevPop, StddevSamp, Sum, VarianceSamp)
  • Funkcje (arytmetyczne i inne różne funkcje, takie jak Alias, Cast, SortOrder)
  • Sortowanie

Następujące wypychania nie są obsługiwane:

  • Sprzężenia
  • Funkcje systemu Windows

Mapowanie typu danych

Podczas odczytywania z usługi Synapse /SQL Data Warehouse do platformy Spark typy danych są mapowe w następujący sposób:

Typ usługi Synapse Typ platformy Spark
dziesiętne, pieniądze, liczbowe, małe Typ dziesiętny
smallint ShortType
tinyint Typ bajtu
int Typ liczby całkowitej
bigint LongType
rzeczywiste FloatType
liczba zmiennoprzecinkowa DoubleType
char, nchar, ntext, nvarchar, text, uniqueidentifier, varchar, xml StringType
binary, geography, geometry, image, timestamp, udt, varbinary BinaryType
bitowe Typ logiczny
data Typ daty
datetime, datetime, smalldatetime, time TimestampType/TimestampNTZType*

*Podczas odczytu z usługi Synapse / SQL Data Warehouse (SQLDW) usługa SQLDW datetimes jest mapowana na platformę Spark TimestampType , jeśli preferTimestampNTZ = false (ustawienie domyślne). Funkcja SQLDW datetimes jest mapowana na TimestampNTZType wartość if preferTimestampNTZ = true.