Tietojen lukeminen ja kirjoittaminen Pandasin avulla Microsoft Fabricissa
Microsoft Fabric -muistikirjat tukevat saumatonta vuorovaikutusta Lakehouse-tietojen kanssa käyttämällä Pandasia, joka on suosituin Python-kirjasto tietojen tutkimiseen ja käsittelyyn. Muistikirjassa voit nopeasti lukea tietoja ja kirjoittaa tietoja takaisin niiden Lakehouse-resursseihin eri tiedostomuodoissa. Tämä opas tarjoaa koodinäytteitä, joiden avulla pääset alkuun omassa muistikirjassasi.
Edellytykset
Hanki Microsoft Fabric -tilaus. Voit myös rekisteröityä ilmaiseen Microsoft Fabric -kokeiluversioon.
Siirry Synapse Data Science -käyttökokemukseen aloitussivun vasemmassa reunassa olevan käyttökokemuksen vaihtajan avulla.
Lakehouse-tietojen lataaminen muistikirjaan
Kun liität Lakehousen Microsoft Fabric -muistikirjaasi, voit tutkia tallennettuja tietoja poistumatta sivulta ja lukea ne muistikirjaasi muutamalla vaiheella. Lakehouse-tiedostopintojen valinnat tietojen lataamiseksi Sparkiin tai Pandas DataFrameen. Voit myös kopioida tiedoston koko ABFS-polun tai ystävällisen suhteellisen polun.
Kun valitset jonkin Lataa tiedot -kehotteen, luo koodisolun, joka lataa kyseisen tiedoston muistikirjasi DataFrameen.
Spark DataFramen muuntaminen Pandas DataFrameksi
Tässä komennossa kerrotaan, miten voit muuntaa Spark DataFramen Pandas DataFrame -kehykseksi:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Erilaisten tiedostomuotojen lukeminen ja kirjoittaminen
Muistiinpano
Tietyn paketin version muokkaaminen saattaa rikkoa muut siitä riippuvaiset paketit. Esimerkiksi alentaminen azure-storage-blob
voi aiheuttaa ongelmia -, - ja -kirjastojen kanssa Pandas
ja monissa muissa kirjastoissa, joiden luotuksena Pandas
on , , mssparkutils
fsspec_wrapper
ja notebookutils
.
Näet esiasennetut paketit ja niiden versiot kullekin suorituspalvelulle täällä.
Nämä koodinäytteet kuvaavat Pandas-toimintoja eri tiedostomuotojen lukemiseksi ja kirjoittamiseksi.
Muistiinpano
Sinun on korvattava näiden koodimallien tiedostopolut. Pandas tukee sekä suhteellisia polkuja, kuten tässä näkyy, että täydellisiä ABFS-polkuja. Jommankumman tyypin polut voidaan noutaa ja kopioida käyttöliittymästä edellisen vaiheen mukaan.
Tietojen lukeminen CSV-tiedostosta
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Tietojen kirjoittaminen CSV-tiedostona
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Tietojen lukeminen Parquet-tiedostosta
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Kirjoita tiedot Parquet-tiedostona
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Tietojen lukeminen Excel-tiedostosta
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Tietojen kirjoittaminen Excel-tiedostona
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Tietojen lukeminen JSON-tiedostosta
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Tietojen kirjoittaminen JSON-tiedostona
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Liittyvä sisältö
- Tietojen puhdistaminen ja valmisteleminen Data Wrangler -toiminnolla
- Koneoppimismallien harjoittamisen aloittaminen