OneLaken integrointi Azure Synapse Analyticsin kanssa
Azure Synapse on rajoittamaton analytiikkapalvelu, joka tuo yhteen yritystietojen varastoinnin ja massadata-analyysit. Tässä opetusohjelmassa kerrotaan, miten voit muodostaa yhteyden OneLakeen Azure Synapse Analyticsin avulla.
Tietojen kirjoittaminen Synapsesta Apache Sparkin avulla
Näiden ohjeiden avulla voit kirjoittaa mallitietoja OneLakeen Azure Synapse Analyticsista Apache Sparkin avulla.
Avaa Synapse-työtilasi ja luo Apache Spark -varanto käyttäen haluamiasi parametreja.
Luo uusi Apache Spark -muistikirja.
Avaa muistikirja, määritä kieli PySparkiin (Python) ja yhdistä se juuri luomaasi Spark-varantoon.
Siirry erillisellä välilehdellä Microsoft Fabric Lakehouse -laitteeseesi ja etsi ylimmän tason taulukot - kansio.
Napsauta Taulukkot-kansiota hiiren kakkospainikkeella ja valitse Ominaisuudet.
Kopioi ABFS-polku Ominaisuudet-ruudusta.
Azure Synapse -muistikirjassa, ensimmäisessä uudessa koodisolussa, anna Lakehouse-polku. Tässä lakehousessa tietosi kirjoitetaan myöhemmin. Suorita solu.
# Replace the path below with the ABFS path to your lakehouse Tables folder. oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
Lataa uudessa koodisolussa tiedot avoimesta Azure-tietojoukosta tietokehykseen. Tämä tietojoukko on se, jonka lataat lakehouseesi. Suorita solu.
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet') display(yellowTaxiDf.limit(10))
Suodata, muunna tai valmistele tietoja uudessa koodisolussa. Tässä skenaariossa voit rajata tietojoukkosi nopeampaa lataamista varten, liittyä muiden tietojoukkojen kanssa tai suodattaa näkyviin tiettyjä tuloksia. Suorita solu.
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1) display(filteredTaxiDf.limit(10))
Kirjoita uuteen koodisoluun OneLake-polkusi avulla suodatettu tietokehys uuteen Delta-Parquet-taulukkoon Fabric Lakehousessasi. Suorita solu.
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
Testaa lopuksi uudessa koodisolussa, että tietosi on kirjoitettu onnistuneesti lukemalla juuri ladattu tiedostosi OneLakesta. Suorita solu.
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/') display(lakehouseRead.limit(10))
Onnittelut. Voit nyt lukea ja kirjoittaa tietoja OneLakessa Azure Synapse Analyticsin Apache Sparkin avulla.
Tietojen lukeminen Synapsesta SQL:n avulla
Näiden ohjeiden avulla voit lukea OneLakesta tietoja Azure Synapse Analyticsista SQL-palvelimettomalla palvelimella.
Avaa Fabric Lakehouse ja tunnista taulukko, josta haluat tehdä kyselyn Synapsesta.
Napsauta taulukkoa hiiren kakkospainikkeella ja valitse Ominaisuudet.
Kopioi taulukon ABFS-polku.
Luo uusi SQL-komentosarja.
Kirjoita SQL-kyselyeditoriin seuraava kysely, joka
ABFS_PATH_HERE
korvataan aiemmin kopioimallasi polulla.SELECT TOP 10 * FROM OPENROWSET( BULK 'ABFS_PATH_HERE', FORMAT = 'delta') as rows;
Suorita kysely, jotta voit tarkastella taulukon 10 ylintä riviä.
Onnittelut. Voit nyt lukea tietoja OneLakesta käyttämällä SQL-palvelimettomia tietoja Azure Synapse Analyticsissa.