Jaa


OneLaken integrointi Azure Synapse Analyticsin kanssa

Azure Synapse on rajoittamaton analytiikkapalvelu, joka tuo yhteen yritystietojen varastoinnin ja massadata-analyysit. Tässä opetusohjelmassa kerrotaan, miten voit muodostaa yhteyden OneLakeen Azure Synapse Analyticsin avulla.

Tietojen kirjoittaminen Synapsesta Apache Sparkin avulla

Näiden ohjeiden avulla voit kirjoittaa mallitietoja OneLakeen Azure Synapse Analyticsista Apache Sparkin avulla.

  1. Avaa Synapse-työtilasi ja luo Apache Spark -varanto käyttäen haluamiasi parametreja.

    Screenshot showing where to select New in the Apache Spark pool screen.

  2. Luo uusi Apache Spark -muistikirja.

  3. Avaa muistikirja, määritä kieli PySparkiin (Python) ja yhdistä se juuri luomaasi Spark-varantoon.

  4. Siirry erillisellä välilehdellä Microsoft Fabric Lakehouse -laitteeseesi ja etsi ylimmän tason taulukot - kansio.

  5. Napsauta Taulukkot-kansiota hiiren kakkospainikkeella ja valitse Ominaisuudet.

    Screenshot showing where to open the Properties pane lakehouse explorer.

  6. Kopioi ABFS-polku Ominaisuudet-ruudusta.

    Screenshot showing where to copy the ABFS path.

  7. Azure Synapse -muistikirjassa, ensimmäisessä uudessa koodisolussa, anna Lakehouse-polku. Tässä lakehousessa tietosi kirjoitetaan myöhemmin. Suorita solu.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. Lataa uudessa koodisolussa tiedot avoimesta Azure-tietojoukosta tietokehykseen. Tämä tietojoukko on se, jonka lataat lakehouseesi. Suorita solu.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. Suodata, muunna tai valmistele tietoja uudessa koodisolussa. Tässä skenaariossa voit rajata tietojoukkosi nopeampaa lataamista varten, liittyä muiden tietojoukkojen kanssa tai suodattaa näkyviin tiettyjä tuloksia. Suorita solu.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. Kirjoita uuteen koodisoluun OneLake-polkusi avulla suodatettu tietokehys uuteen Delta-Parquet-taulukkoon Fabric Lakehousessasi. Suorita solu.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Testaa lopuksi uudessa koodisolussa, että tietosi on kirjoitettu onnistuneesti lukemalla juuri ladattu tiedostosi OneLakesta. Suorita solu.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Onnittelut. Voit nyt lukea ja kirjoittaa tietoja OneLakessa Azure Synapse Analyticsin Apache Sparkin avulla.

Tietojen lukeminen Synapsesta SQL:n avulla

Näiden ohjeiden avulla voit lukea OneLakesta tietoja Azure Synapse Analyticsista SQL-palvelimettomalla palvelimella.

  1. Avaa Fabric Lakehouse ja tunnista taulukko, josta haluat tehdä kyselyn Synapsesta.

  2. Napsauta taulukkoa hiiren kakkospainikkeella ja valitse Ominaisuudet.

  3. Kopioi taulukon ABFS-polku.

    Screenshot showing where to copy the ABFS path.

  4. Avaa Synapse-työtila Synapse Studiossa.

  5. Luo uusi SQL-komentosarja.

  6. Kirjoita SQL-kyselyeditoriin seuraava kysely, joka ABFS_PATH_HERE korvataan aiemmin kopioimallasi polulla.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Suorita kysely, jotta voit tarkastella taulukon 10 ylintä riviä.

Onnittelut. Voit nyt lukea tietoja OneLakesta käyttämällä SQL-palvelimettomia tietoja Azure Synapse Analyticsissa.