Jaa


Integroi Databricks Unityn luettelo OneLaken kanssa

Tässä skenaariossa näytetään, miten voit integroida Unity Catalogn ulkoiset Delta-taulukot OneLakeen pikakuvakkeiden avulla. Kun olet suorittanut tämän opetusohjelman, voit synkronoida Unity Catalogin ulkoiset Delta-taulukot automaattisesti Microsoft Fabric Lakehouseen.

Edellytykset

Ennen kuin muodostat yhteyden, sinulla on oltava seuraavat:

Pilvitallennusyhteyden määrittäminen

Tutki ensin, mitä tallennussijainteja Unity Catalog -taulukkosi käyttävät Azure Data Lake Storage Gen2 (ADLS Gen2) -ympäristössä. Tätä pilvitallennusyhteyden tallennusyhteyttä käyttävät OneLake-pikakuvakkeet. Luo pilviyhteys sopivaan Unity Catalog -tallennussijaintiin seuraavasti:

  1. Luo Unity Catalog -taulukoiden käyttämä pilvitallennusyhteyden luonti. Katso, miten voit määrittää ADLS Gen2 -yhteyden.

  2. Kun yhteys on luotu, hanki yhteystunnus valitsemalla Asetukset> Yhteyksien hallinta ja Yhdyskäytävien>yhteysasetukset.>

Näyttökuva, jossa näkyy ADLS Gen2 -yhteystunnus.

Muistiinpano

Ulkoisen sijaintitallennustilan käyttöoikeuksien myöntäminen käyttäjille suoraan ADLS Gen2:ssa ei täytä Unity Catalogin myöntämiä tai ylläpitämiä tarkastuksia. Suora käyttö ohittaa valvonnan, historiatiedot ja muut Unity Catalogin suojauksen/seurannan ominaisuudet, mukaan lukien käyttöoikeuksien valvonnan ja käyttöoikeudet. Vastuullasi on suora tallennustilan käytön hallinta ADLS Gen2:n kautta ja sen varmistaminen, että käyttäjillä on Fabricin kautta myönnetyt asianmukaiset käyttöoikeudet. Vältä kaikkia tilanteita, joissa myönnät suoran tallennustason kirjoitusoikeuden säilöille, jotka tallentavat Databricksin hallittuja taulukoita. Niiden objektien muokkaaminen, poistaminen tai kehittäminen suoraan tallennustilan kautta, joita alun perin hallitaan Unity Catalogssa, voi johtaa tietojen vioittumiseen.

Suorita muistikirja

Kun Cloud-yhteystunnus on saatu, integroi Unity Catalog -taulukot Fabric Lakehouseen seuraavasti:

Näyttökuva, jossa näkyy Unity Catalog to Fabric -pikakuvaketyönkulku.

  1. Tuo synkronoinnin muistikirja Fabric-työtilaan. Tämä muistikirja vie kaikki Unity Catalog -taulukon metatiedot metatiedoista kyseisestä luettelosta ja metasäilön rakenteet.

  2. Määritä muistikirjan ensimmäisen solun parametrit Unity Catalog -taulukoiden integroimiseksi. PAT-tunnuksen avulla todennettua Databricks-ohjelmointirajapintaa käytetään Unity Catalog -taulukoiden viemiseen. Seuraavaa katkelmaa käytetään määrittämään lähteen (Unity Catalog) ja kohteen (OneLake) parametrit. Varmista, että korvaat ne omilla arvoillasi.

    # Databricks workspace
    dbx_workspace = "<databricks_workspace_url>"
    dbx_token = "<pat_token>"
    # Unity Catalog
    dbx_uc_catalog = "catalog1"
    dbx_uc_schemas = '["schema1", "schema2"]'
    
    # Fabric
    fab_workspace_id = "<workspace_id>"
    fab_lakehouse_id = "<lakehouse_id>"
    fab_shortcut_connection_id = "<connection_id>"
    # If True, UC table renames and deletes will be considered
    fab_consider_dbx_uc_table_changes = True
    
  3. Suorita kaikki muistikirjan solut , jotta voit aloittaa Unity Catalog Delta -taulukoiden synkronoinnin OneLakeen pikakuvakkeiden avulla. Kun muistikirja on suoritettu, Unity Catalog Delta -taulukoiden pikakuvakkeet ovat käytettävissä Lakehousen, SQL-analytiikan päätepisteissä ja semanttisessa mallissa.

Muistikirjan ajoittaminen

Jos haluat suorittaa muistikirjan säännöllisin väliajoin Unity Catalog Delta -taulukoiden integroimiseksi OneLakeen ilman manuaalista uudelleensynkronointia tai uudelleen suorittamista, voit joko ajoittaa muistikirjan tai käyttää muistikirjatoimintoa Fabric Data Factoryn tietoputkessa.

Jos aiot välittää jälkimmäisessä skenaariossa parametrit tietoputkesta, määritä muistikirjan ensimmäinen solu vaihtoparametrisoluksi ja anna tarvittavat parametrit putkessa.

Näyttökuva, jossa näkyvät muistikirjan toiminnan parametrit.

Muuta huomioon otettavaa

  • Tuotantoskenaarioita varten suosittelemme käyttämään Databricks OAuth-todennusta ja Azure Key Vaultia salaisten koodien hallintaan. Voit esimerkiksi käyttää MSSparkUtils-tunnistetietoja avainsalaisuuksien käyttämiseen.
  • Muistikirja toimii Unity Catalogin ulkoisten Delta-taulukoiden kanssa. Jos käytät useita pilvitallennussijainteja Unity Catalog -taulukoissa, eli useammassa kuin yhdessä ADLS Gen2:ssa, kannattaa suorittaa muistikirja erikseen kullakin pilviyhteydellä.
  • Unity Catalogin hallittuja Delta-taulukoita, näkymiä, muodostettuja näkymiä, virtautettavia taulukoita ja muita kuin delta-taulukoita ei tueta.
  • Unity Catalog -taulukon rakenteisiin tehdyt muutokset, kuten sarakkeiden lisääminen tai poistaminen, näkyvät automaattisesti pikakuvakkeissa. Jotkin päivitykset, kuten Unity Catalog -taulukon uudelleennimeäminen ja poistaminen, edellyttävät kuitenkin muistikirjan uudelleensynkronista/uudelleenajoa. Tätä huomioida fab_consider_dbx_uc_table_changes parametri.
  • Jos kirjoitat skenaarioita, saman tallennustason käyttäminen eri käsittelymoduulien välillä voi aiheuttaa tahattomia seurauksia. Muista ymmärtää eri Apache Spark -käsittelymoduulien ja suorituksenaikaisen version käytön vaikutukset.