Integrowanie wykazu aparatu Unity usługi Databricks z usługą OneLake
W tym scenariuszu pokazano, jak zintegrować zewnętrzne tabele delty wykazu unity z usługą OneLake przy użyciu skrótów. Po ukończeniu tego samouczka będzie można automatycznie zsynchronizować zewnętrzne tabele delty wykazu aparatu Unity z usługą Microsoft Fabric lakehouse.
Wymagania wstępne
Przed nawiązaniem połączenia musisz mieć następujące elementy:
- Obszar roboczy sieć szkieletowa.
- Usługa Fabric lakehouse w obszarze roboczym.
- Tabele delty wykazu zewnętrznego aparatu Unity utworzone w obszarze roboczym usługi Azure Databricks.
Konfigurowanie połączenia magazynu w chmurze
Najpierw sprawdź, które lokalizacje magazynu w usłudze Azure Data Lake Storage Gen2 (ADLS Gen2) używają tabel wykazu aparatu Unity. To połączenie magazynu w chmurze jest używane przez skróty OneLake. Aby utworzyć połączenie w chmurze z odpowiednią lokalizacją magazynu wykazu aparatu Unity:
Utwórz połączenie magazynu w chmurze używane przez tabele wykazu aparatu Unity. Zobacz, jak skonfigurować połączenie usługi ADLS Gen2.
Po utworzeniu połączenia uzyskaj identyfikator połączenia, wybierając pozycję Ustawienia >Zarządzaj połączeniami i ustawieniami>połączeń.>
Uwaga
Udzielanie użytkownikom bezpośredniego dostępu do magazynu lokalizacji zewnętrznej w usłudze ADLS Gen2 nie obsługuje żadnych uprawnień przyznanych ani inspekcji obsługiwanych przez wykaz aparatu Unity. Bezpośredni dostęp spowoduje obejście inspekcji, pochodzenia i innych funkcji zabezpieczeń/monitorowania wykazu aparatu Unity, w tym kontroli dostępu i uprawnień. Odpowiadasz za zarządzanie bezpośrednim dostępem do magazynu za pośrednictwem usługi ADLS Gen2 i upewnianie się, że użytkownicy mają odpowiednie uprawnienia przyznane za pośrednictwem sieci szkieletowej. Unikaj wszystkich scenariuszy udzielania bezpośredniego dostępu do zapisu na poziomie magazynu dla zasobników przechowując tabele zarządzane przez usługę Databricks. Modyfikowanie, usuwanie lub rozwijanie dowolnych obiektów bezpośrednio za pośrednictwem magazynu, które były pierwotnie zarządzane przez wykaz aparatu Unity, może spowodować uszkodzenie danych.
Uruchamianie notesu
Po uzyskaniu identyfikatora połączenia z chmurą zintegruj tabele wykazu aparatu Unity z usługą Fabric Lakehouse w następujący sposób:
Zaimportuj notes synchronizacji do obszaru roboczego usługi Fabric. Ten notes eksportuje wszystkie metadane tabel wykazu aparatu Unity z danego wykazu i schematów w magazynie metadanych.
Skonfiguruj parametry w pierwszej komórce notesu, aby zintegrować tabele wykazu aparatu Unity. Interfejs API usługi Databricks uwierzytelniony za pośrednictwem tokenu pat jest używany do eksportowania tabel wykazu aparatu Unity. Poniższy fragment kodu służy do konfigurowania parametrów źródłowych (wykazu aparatu Unity) i miejsca docelowego (OneLake). Pamiętaj, aby zastąpić je własnymi wartościami.
# Databricks workspace dbx_workspace = "<databricks_workspace_url>" dbx_token = "<pat_token>" # Unity Catalog dbx_uc_catalog = "catalog1" dbx_uc_schemas = '["schema1", "schema2"]' # Fabric fab_workspace_id = "<workspace_id>" fab_lakehouse_id = "<lakehouse_id>" fab_shortcut_connection_id = "<connection_id>" # If True, UC table renames and deletes will be considered fab_consider_dbx_uc_table_changes = True
Uruchom wszystkie komórki notesu, aby rozpocząć synchronizowanie tabel delty wykazu aparatu Unity z usługą OneLake przy użyciu skrótów. Po zakończeniu notesu skróty do tabel delta wykazu aparatu Unity są dostępne w usłudze Lakehouse, punkcie końcowym analizy SQL i modelu semantycznym.
Planowanie notesu
Jeśli chcesz wykonać notes w regularnych odstępach czasu, aby zintegrować tabele delta wykazu aparatu Unity z usługą OneLake bez ręcznej ponownej synchronizacji/ponownego uruchamiania, możesz zaplanować notes lub użyć działania notesu w potoku danych w usłudze Fabric Data Factory.
W ostatnim scenariuszu, jeśli zamierzasz przekazać parametry z potoku danych, wyznaczyć pierwszą komórkę notesu jako komórkę przełącznika parametrów i podać odpowiednie parametry w potoku.
Inne uwagi
- W przypadku scenariuszy produkcyjnych zalecamy używanie protokołu OAuth usługi Databricks do uwierzytelniania i usługi Azure Key Vault w celu zarządzania wpisami tajnymi. Na przykład możesz użyć narzędzi poświadczeń MSSparkUtils , aby uzyskać dostęp do wpisów tajnych usługi Key Vault.
- Notes działa z zewnętrznymi tabelami delty wykazu aparatu Unity. Jeśli używasz wielu lokalizacji magazynu w chmurze dla tabel wykazu aparatu Unity, tj. więcej niż jednej usługi ADLS Gen2, zaleca się uruchomienie notesu oddzielnie przez każde połączenie z chmurą.
- Tabele różnicowe zarządzane przez wykaz aparatu Unity, widoki, zmaterializowane widoki, tabele przesyłania strumieniowego i tabele inne niż delty nie są obsługiwane.
- Zmiany schematów tabeli wykazu aparatu Unity, takie jak dodawanie/usuwanie kolumn, są odzwierciedlane automatycznie w skrótach. Jednak niektóre aktualizacje, takie jak zmiana nazwy tabeli wykazu aparatu Unity i usunięcie, wymagają ponownej synchronizacji/ponownego uruchomienia notesu. Jest to uznawane za pomocą
fab_consider_dbx_uc_table_changes
parametru. - W przypadku pisania scenariuszy użycie tej samej warstwy magazynu w różnych aparatach obliczeniowych może spowodować niezamierzone konsekwencje. Pamiętaj, aby zrozumieć implikacje podczas korzystania z różnych aparatów obliczeniowych platformy Apache Spark i wersji środowiska uruchomieniowego.