Integroi Databricks Unityn luettelo OneLaken kanssa
Tässä skenaariossa näytetään, miten voit integroida Unity Catalogn ulkoiset Delta-taulukot OneLakeen pikakuvakkeiden avulla. Kun olet suorittanut tämän opetusohjelman, voit synkronoida Unity Catalogin ulkoiset Delta-taulukot automaattisesti Microsoft Fabric Lakehouseen.
Edellytykset
Ennen kuin muodostat yhteyden, sinulla on oltava seuraavat:
- Fabric-työtila.
- Fabric Lakehouse työtilassasi.
- Azure Databricks -työtilassa luodut ulkoiset Unity Catalog Delta -taulukot .
Pilvitallennusyhteyden määrittäminen
Tutki ensin, mitä tallennussijainteja Unity Catalog -taulukkosi käyttävät Azure Data Lake Storage Gen2 (ADLS Gen2) -ympäristössä. Tätä pilvitallennusyhteyden tallennusyhteyttä käyttävät OneLake-pikakuvakkeet. Luo pilviyhteys sopivaan Unity Catalog -tallennussijaintiin seuraavasti:
Luo Unity Catalog -taulukoiden käyttämä pilvitallennusyhteyden luonti. Katso, miten voit määrittää ADLS Gen2 -yhteyden.
Kun yhteys on luotu, hanki yhteystunnus valitsemalla Asetukset> Yhteyksien hallinta ja Yhdyskäytävien>yhteysasetukset.>
Muistiinpano
Ulkoisen sijaintitallennustilan käyttöoikeuksien myöntäminen käyttäjille suoraan ADLS Gen2:ssa ei täytä Unity Catalogin myöntämiä tai ylläpitämiä tarkastuksia. Suora käyttö ohittaa valvonnan, historiatiedot ja muut Unity Catalogin suojauksen/seurannan ominaisuudet, mukaan lukien käyttöoikeuksien valvonnan ja käyttöoikeudet. Vastuullasi on suora tallennustilan käytön hallinta ADLS Gen2:n kautta ja sen varmistaminen, että käyttäjillä on Fabricin kautta myönnetyt asianmukaiset käyttöoikeudet. Vältä kaikkia tilanteita, joissa myönnät suoran tallennustason kirjoitusoikeuden säilöille, jotka tallentavat Databricksin hallittuja taulukoita. Niiden objektien muokkaaminen, poistaminen tai kehittäminen suoraan tallennustilan kautta, joita alun perin hallitaan Unity Catalogssa, voi johtaa tietojen vioittumiseen.
Suorita muistikirja
Kun Cloud-yhteystunnus on saatu, integroi Unity Catalog -taulukot Fabric Lakehouseen seuraavasti:
Tuo synkronoinnin muistikirja Fabric-työtilaan. Tämä muistikirja vie kaikki Unity Catalog -taulukon metatiedot metatiedoista kyseisestä luettelosta ja metasäilön rakenteet.
Määritä muistikirjan ensimmäisen solun parametrit Unity Catalog -taulukoiden integroimiseksi. PAT-tunnuksen avulla todennettua Databricks-ohjelmointirajapintaa käytetään Unity Catalog -taulukoiden viemiseen. Seuraavaa katkelmaa käytetään määrittämään lähteen (Unity Catalog) ja kohteen (OneLake) parametrit. Varmista, että korvaat ne omilla arvoillasi.
# Databricks workspace dbx_workspace = "<databricks_workspace_url>" dbx_token = "<pat_token>" # Unity Catalog dbx_uc_catalog = "catalog1" dbx_uc_schemas = '["schema1", "schema2"]' # Fabric fab_workspace_id = "<workspace_id>" fab_lakehouse_id = "<lakehouse_id>" fab_shortcut_connection_id = "<connection_id>" # If True, UC table renames and deletes will be considered fab_consider_dbx_uc_table_changes = True
Suorita kaikki muistikirjan solut , jotta voit aloittaa Unity Catalog Delta -taulukoiden synkronoinnin OneLakeen pikakuvakkeiden avulla. Kun muistikirja on suoritettu, Unity Catalog Delta -taulukoiden pikakuvakkeet ovat käytettävissä Lakehousen, SQL-analytiikan päätepisteissä ja semanttisessa mallissa.
Muistikirjan ajoittaminen
Jos haluat suorittaa muistikirjan säännöllisin väliajoin Unity Catalog Delta -taulukoiden integroimiseksi OneLakeen ilman manuaalista uudelleensynkronointia tai uudelleen suorittamista, voit joko ajoittaa muistikirjan tai käyttää muistikirjatoimintoa Fabric Data Factoryn tietoputkessa.
Jos aiot välittää jälkimmäisessä skenaariossa parametrit tietoputkesta, määritä muistikirjan ensimmäinen solu vaihtoparametrisoluksi ja anna tarvittavat parametrit putkessa.
Muuta huomioon otettavaa
- Tuotantoskenaarioita varten suosittelemme käyttämään Databricks OAuth-todennusta ja Azure Key Vaultia salaisten koodien hallintaan. Voit esimerkiksi käyttää MSSparkUtils-tunnistetietoja avainsalaisuuksien käyttämiseen.
- Muistikirja toimii Unity Catalogin ulkoisten Delta-taulukoiden kanssa. Jos käytät useita pilvitallennussijainteja Unity Catalog -taulukoissa, eli useammassa kuin yhdessä ADLS Gen2:ssa, kannattaa suorittaa muistikirja erikseen kullakin pilviyhteydellä.
- Unity Catalogin hallittuja Delta-taulukoita, näkymiä, muodostettuja näkymiä, virtautettavia taulukoita ja muita kuin delta-taulukoita ei tueta.
- Unity Catalog -taulukon rakenteisiin tehdyt muutokset, kuten sarakkeiden lisääminen tai poistaminen, näkyvät automaattisesti pikakuvakkeissa. Jotkin päivitykset, kuten Unity Catalog -taulukon uudelleennimeäminen ja poistaminen, edellyttävät kuitenkin muistikirjan uudelleensynkronista/uudelleenajoa. Tätä huomioida
fab_consider_dbx_uc_table_changes
parametri. - Jos kirjoitat skenaarioita, saman tallennustason käyttäminen eri käsittelymoduulien välillä voi aiheuttaa tahattomia seurauksia. Muista ymmärtää eri Apache Spark -käsittelymoduulien ja suorituksenaikaisen version käytön vaikutukset.