Co to jest Federacja Lakehouse?
W tym artykule przedstawiono usługę Lakehouse Federation , platformę federacyjną zapytań, która umożliwia korzystanie z usługi Azure Databricks do uruchamiania zapytań względem wielu zewnętrznych źródeł danych. W tym artykule opisano również sposób konfigurowania połączeń federacji Lakehouse i tworzenia katalogów zewnętrznych w katalogu metadanych Unity.
Co to jest Federacja Lakehouse?
Federacja lakehouse to platforma federacyjna zapytań dla usługi Azure Databricks. Termin Federacja zapytań opisuje kolekcję funkcji, które umożliwiają użytkownikom i systemom uruchamianie zapytań względem wielu źródeł danych bez konieczności migrowania wszystkich danych do ujednoliconego systemu.
Azure Databricks używa Unity Catalog do zarządzania federacją zapytań. Konfigurujesz połączenia tylko do odczytu do popularnych rozwiązań bazodanowych za pomocą sterowników zawartych w magazynach Pro SQL, bezserwerowych magazynach SQL oraz klastrach Databricks Runtime. Narzędzia zarządzania ładem danych i śledzeniem danych Unity Catalog gwarantują zarządzanie i audyt dostępu do danych dla wszystkich zapytań federacyjnych, które wykonują użytkownicy w waszych obszarach roboczych Azure Databricks.
Dlaczego warto używać federacji Lakehouse?
Koncepcja Lakehouse podkreśla centralne magazynowanie danych w celu zmniejszenia ich nadmiarowości i izolacji. Twoja organizacja może mieć wiele systemów danych w środowisku produkcyjnym i może być konieczne wykonywanie zapytań dotyczących danych w połączonych systemach z wielu powodów:
- Raportowanie ad hoc.
- Praca z weryfikacją koncepcji.
- Faza eksploracyjna nowych potoków lub raportów ETL.
- Obsługa obciążeń podczas migracji przyrostowej.
W każdym z tych scenariuszy federacja zapytań pozwala na szybsze uzyskiwanie wglądu, ponieważ można wykonywać zapytania dotyczące danych w miejscu i unikać złożonego i czasochłonnego przetwarzania ETL.
Federacja Lakehouse jest przeznaczona do przypadków użycia, gdy:
- Nie chcesz pozyskiwać danych do usługi Azure Databricks.
- Chcesz, aby zapytania korzystały z obliczeń w zewnętrznym systemie bazy danych.
- Chcesz korzystać z zalet interfejsów katalogowych Unity Catalog i zarządzania danymi, w tym szczegółowej kontroli dostępu, śledzenia pochodzenia danych i wyszukiwania.
Omówienie konfiguracji federacji Lakehouse
Aby udostępnić zestaw danych do wykonywania zapytań tylko do odczytu przy użyciu federacji Lakehouse, tworzysz następujące elementy:
Połączenie, zabezpieczany obiekt w katalogu Unity, który określa ścieżkę i poświadczenia do uzyskania dostępu do zewnętrznego systemu bazy danych.
Katalog obcy, zabezpieczany obiekt w Unity Catalog, który dubluje bazę danych w zewnętrznym systemie danych, umożliwiając wykonywanie zapytań w trybie tylko do odczytu w tym systemie danych w obszarze roboczym Azure Databricks, zarządzając dostępem za pomocą Unity Catalog.
Obsługiwane źródła danych
Federacja lakehouse obsługuje połączenia z następującymi źródłami:
- MySQL
- PostgreSQL
- Teradata
- Oracle
- Amazon Redshift
- Salesforce Data Cloud
- Snowflake
- Microsoft SQL Server
- Azure Synapse (SQL Data Warehouse)
- Google BigQuery
- Databricks
- Metastore Hive
Wymagania dotyczące połączenia
Wymagania dotyczące obszaru roboczego:
- Obszar roboczy z dostępem do Unity Catalog.
Wymagania dotyczące obliczeń:
- Łączność sieciowa pomiędzy zasobem obliczeniowym a docelowymi systemami baz danych. Zobacz Zalecenia dotyczące sieci dla usługi Lakehouse Federation.
- Środowisko obliczeniowe usługi Azure Databricks musi używać środowiska Databricks Runtime 13.3 LTS lub nowszego oraz standardowego trybu dostępu lub dedykowanego trybu dostępu .
- Magazyny SQL muszą być w wersji pro lub bezserwerowej i muszą używać wersji 2023.40 lub nowszej.
Wymagane uprawnienia:
- Aby utworzyć połączenie, musisz być administratorem magazynu metadanych lub użytkownikiem z uprawnieniami
CREATE CONNECTION
w magazynie metadanych Unity Catalog dołączonym do obszaru roboczego. - Aby utworzyć katalog zagraniczny, musisz mieć uprawnienie
CREATE CATALOG
w metastore i być właścicielem połączenia lub mieć uprawnieniaCREATE FOREIGN CATALOG
dla połączenia.
Dodatkowe wymagania dotyczące uprawnień są określone w każdej sekcji dotyczącej zadań.
Tworzenie połączenia
Połączenie określa ścieżkę dostępu i dane uwierzytelniające do zewnętrznego systemu bazodanowego. Aby utworzyć połączenie, możesz użyć Eksploratora wykazu lub polecenia CREATE CONNECTION
SQL w notesie usługi Azure Databricks lub edytorze zapytań SQL usługi Databricks.
Uwaga
Do utworzenia połączenia można również użyć interfejsu API REST usługi Databricks lub interfejsu wiersza polecenia usługi Databricks. Zobacz POST /api/2.1/unity-catalog/connections oraz polecenia Unity Catalog.
Wymagane uprawnienia: administrator magazynu metadanych lub użytkownik z uprawnieniami CREATE CONNECTION
.
Eksplorator wykazu
W obszarze roboczym usługi Azure Databricks kliknij
Katalog.
Na górze okienka Katalog kliknij ikonę
Dodaj i wybierz pozycję Dodaj połączenie z menu.
Alternatywnie na stronie szybki dostęp do kliknij przycisk Zewnętrzne dane >, przejdź do karty połączenia, a następnie kliknij przycisk Utwórz połączenie.
Wprowadź przyjazną dla użytkownika nazwę połączenia.
Wybierz typ połączenia (dostawca bazy danych, taki jak MySQL lub PostgreSQL).
(Opcjonalnie) Dodaj komentarz.
Kliknij przycisk Dalej.
Wprowadź właściwości połączenia (takie jak informacje o hoście, ścieżka i poświadczenia dostępu).
Każdy typ połączenia wymaga różnych informacji o połączeniu. Zapoznaj się z artykułem dotyczącym typu połączenia wymienionego w spisie treści po lewej stronie.
Kliknij pozycję Utwórz połączenie.
Wprowadź nazwę wykazu obcego.
(Opcjonalnie) Kliknij pozycję Testuj połączenie , aby potwierdzić, że działa.
Kliknij pozycję Utwórz katalog.
Wybierz obszary robocze, w których użytkownicy mogą uzyskiwać dostęp do utworzonego katalogu. Możesz wybrać opcję Wszystkie obszary robocze mają dostęplub kliknij Przypisać do obszarów roboczych, wybierz obszary robocze, a następnie kliknij Przypisz.
Zmień właściciela , który będzie mógł zarządzać dostępem do wszystkich obiektów w katalogu. Zacznij wpisywać jednostkę w polu tekstowym, a następnie kliknij jednostkę w zwróconych wynikach.
Nadaj przywileje w katalogu. Kliknij Zezwól:
- Określ podmioty, które będą miały dostęp do obiektów w katalogu. Zacznij wpisywać jednostkę w polu tekstowym, a następnie kliknij jednostkę w zwróconych wynikach.
- Wybierz ustawienia wstępne przywilejów, aby przyznać każdemu podmiotowi. Wszyscy użytkownicy konta domyślnie otrzymują
BROWSE
.- Wybierz Czytnik danych z menu rozwijanego, aby nadać
read
uprawnienia do obiektów w katalogu. - Wybierz pozycję Edytor danych z menu rozwijanego, aby przyznać
read
imodify
uprawnienia do obiektów w wykazie. - Ręcznie wybierz uprawnienia do udzielenia.
- Wybierz Czytnik danych z menu rozwijanego, aby nadać
- Kliknij Grant.
- Kliknij przycisk Dalej.
- Na stronie Metadane określ pary tagów klucz-wartość. Aby uzyskać więcej informacji, zobacz Zastosuj tagi do obiektów zabezpieczalnych w Unity Catalog.
- (Opcjonalnie) Dodaj komentarz.
- Kliknij Zapisz.
SQL
Uruchom następujące polecenie w notesie lub edytorze zapytań SQL. Ten przykład dotyczy połączeń z bazą danych PostgreSQL. Opcje różnią się od typu połączenia. Zapoznaj się z artykułem dotyczącym typu połączenia wymienionego w spisie treści po lewej stronie.
CREATE CONNECTION <connection-name> TYPE postgresql
OPTIONS (
host '<hostname>',
port '<port>',
user '<user>',
password '<password>'
);
Zalecamy używanie tajnych danych usługi Azure Databricks zamiast ciągów w postaci zwykłego tekstu dla poufnych wartości, takich jak dane uwierzytelniające. Na przykład:
CREATE CONNECTION <connection-name> TYPE postgresql
OPTIONS (
host '<hostname>',
port '<port>',
user secret ('<secret-scope>','<secret-key-user>'),
password secret ('<secret-scope>','<secret-key-password>')
)
Aby uzyskać informacje na temat konfigurowania wpisów tajnych, zobacz Zarządzanie wpisami tajnymi.
Aby uzyskać informacje na temat zarządzania istniejącymi połączeniami, zobacz Zarządzanie połączeniami dla Lakehouse Federation.
Utwórz katalog zagraniczny
Uwaga
Jeśli używasz interfejsu użytkownika do utworzenia połączenia ze źródłem danych, uwzględnione jest tworzenie katalogu zewnętrznego i możesz pominąć ten krok.
Wykaz obcy odzwierciedla bazę danych w zewnętrznym systemie danych, dzięki czemu można wykonywać zapytania o dostęp do danych w tej bazie danych i zarządzać nimi przy użyciu usług Azure Databricks i Unity Catalog. Aby utworzyć wykaz obcy, należy użyć połączenia ze źródłem danych, które zostało już zdefiniowane.
Aby utworzyć wykaz obcy, możesz użyć Eksploratora wykazu lub polecenia CREATE FOREIGN CATALOG
SQL w notesie usługi Azure Databricks lub edytorze zapytań SQL. Możesz również użyć API Unity Catalog. Zobacz dokumentację referencyjną usługi Azure Databricks.
Metadane obcego katalogu są synchronizowane z Unity Catalog przy każdej interakcji z katalogiem. Aby zapoznać się z mapowaniem typów danych między Unity Catalog a źródłem danych, sprawdź sekcję Mapowania Typów Danych w dokumentacji każdego źródła danych.
Wymagane uprawnienia:CREATE CATALOG
uprawnienie do magazynu metadanych i własność połączenia lub CREATE FOREIGN CATALOG
uprawnienia do połączenia.
Eksplorator wykazu
W obszarze roboczym usługi Azure Databricks kliknij ikonę Katalog
, aby otworzyć Eksploratora Katalogu.
W górnej części okienka Katalogu, kliknij ikonę
Dodaj i wybierz Dodaj katalog z menu.
Alternatywnie na stronie Szybki dostęp kliknij na przycisk Wykazy, a następnie kliknij na przycisk Utwórz katalog.
Postępuj zgodnie z instrukcjami dotyczącymi tworzenia katalogów obcych w Tworzenie katalogów.
SQL
Uruchom następujące polecenie SQL w notesie lub edytorze zapytań SQL. Elementy w nawiasach są opcjonalne. Zastąp wartości zastępcze:
-
<catalog-name>
: nazwa wykazu w usłudze Azure Databricks. -
<connection-name>
: obiekt połączenia określający źródło danych, ścieżkę i poświadczenia dostępu. -
<database-name>
: nazwa bazy danych, którą chcesz dublować jako wykaz w usłudze Azure Databricks. Nie jest to wymagane w przypadku bazy danych MySQL, która używa dwuwarstwowej przestrzeni nazw. -
<external-catalog-name>
: Databricks-to-Databricks tylko: nazwa katalogu w zewnętrznym obszarze roboczym Databricks, który jest odwzorowywany. Zobacz Tworzenie obcego katalogu.
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');
Aby uzyskać informacje na temat zarządzania katalogami obcymi i pracy z nimi, zobacz Zarządzanie katalogami obcymi i praca z nimi.
Lakehouse Federation i zmaterializowane widoki
Usługa Databricks zaleca ładowanie danych zewnętrznych za pomocą Federacji Lakehouse podczas tworzenia zmaterializowanych widoków. Zobacz Używanie widoków materializowanych w Databricks SQL.
W przypadku korzystania z usługi Lakehouse Federation użytkownicy mogą odwoływać się do danych federacyjnych w następujący sposób:
CREATE MATERIALIZED VIEW xyz AS SELECT * FROM federated_catalog.federated_schema.federated_table;
Wyświetlanie zapytań federacyjnych generowanych przez system
Usługa Lakehouse Federation przekształca instrukcje SQL Databricks na zapytania, które można przekazać do zintegrowanego źródła danych. Aby wyświetlić wygenerowaną instrukcję SQL, kliknij węzeł skanowania obcego źródła danych na wykresie w widoku profilu zapytania lub uruchom instrukcję SQL EXPLAIN FORMATTED. Zobacz sekcję Obsługiwane wypychanie w dokumentacji każdego źródła danych, aby uzyskać więcej informacji na ten temat.
Ograniczenia
- Zapytania są tylko do odczytu.
- Ograniczanie połączeń jest określane przy użyciu limitu współbieżnych zapytań SQL usługi Databricks. Nie ma żadnych ograniczeń dotyczących połączeń między magazynami. Zobacz Kolejkowanie i autoskalowanie dla magazynów SQL pro i klasycznych.
- Tabele i schematy o nazwach, które są nieprawidłowe w Unity Catalog, nie są obsługiwane i są ignorowane przez Unity Catalog podczas tworzenia katalogu zewnętrznego. Zobacz listę reguł nazewnictwa i ograniczeń w temacie Ograniczenia.
- Nazwy tabel i nazwy schematów są konwertowane na małe litery w Unity Catalog. Wyszukiwania muszą również używać małych liter. Jeśli istnieją tabele lub schematy z duplikatami nazw w małych literach, tylko jedna z tych tabel lub schematów jest importowana do obcego katalogu.
- Dla każdej tabeli obcej, do której jest odwołanie, usługa Azure Databricks harmonogramuje podzapytanie w systemie zdalnym, aby zwrócić podzbiór danych z tej tabeli, a następnie zwraca wynik do jednego zadania wykonawczego usługi Azure Databricks w ramach pojedynczego strumienia. Jeśli zestaw wyników jest zbyt duży, wykonawca może mieć problemy z brakiem pamięci.
- Tryb dedykowanego dostępu (dawniej tryb dostępu pojedynczego użytkownika) jest dostępny tylko dla użytkowników, którzy są właścicielami połączenia.
- Federacja Lakehouse nie może zarządzać jako część federacji tabelami zewnętrznymi z identyfikatorami rozróżniającymi wielkość liter dla połączeń Azure Synapse lub Redshift.
Przydziały zasobów
Usługa Azure Databricks wymusza kwoty zasobów dla wszystkich obiektów, które można zabezpieczyć w Unity Catalog. Te limity przydziału są wymienione w temacie Limity zasobów. Katalogi obce i wszystkie zawarte w nich obiekty są uwzględniane w całkowitym użyciu limitu przydziału.
Jeśli spodziewasz się przekroczyć te limity zasobów, skontaktuj się z zespołem konta usługi Azure Databricks.
Można monitorować zużycie limitu przydziałów za pomocą zasobów API Unity Catalog. Zobacz Monitorowanie użycia zasobów Unity Catalog.
Dodatkowe zasoby
- Zapytania federacyjne (Federacja Lakehouse) w dokumentacji języka SQL