Läsa och skriva data med Pandas i Microsoft Fabric
Microsoft Fabric-notebook-filer stöder sömlös interaktion med Lakehouse-data med Pandas, det mest populära Python-biblioteket för datautforskning och bearbetning. I en notebook-fil kan du snabbt läsa data från och skriva data tillbaka till deras Lakehouse-resurser i olika filformat. Den här guiden innehåller kodexempel som hjälper dig att komma igång i din egen notebook-fil.
Förutsättningar
Skaffa en Microsoft Fabric-prenumeration. Eller registrera dig för en kostnadsfri utvärderingsversion av Microsoft Fabric.
Logga in på Microsoft Fabric.
Använd växlaren för upplevelser längst ner till vänster på din startsida för att växla till Fabric.
Läsa in Lakehouse-data i en notebook-fil
När du har bifogat en Lakehouse till din Microsoft Fabric-notebook-fil kan du utforska lagrade data utan att lämna sidan och läsa den i anteckningsboken, allt med några få steg. Val av val av Lakehouse-filytor alternativ för att "läsa in data" i en Spark eller en Pandas DataFrame. Du kan också kopiera filens fullständiga ABFS-sökväg eller en egen relativ sökväg.
Om du väljer någon av "Läs in data" genereras en kodcell för att läsa in filen i en DataFrame i notebook-filen.
Konvertera en Spark DataFrame till en Pandas DataFrame
Som referens visar det här kommandot hur du konverterar en Spark DataFrame till en Pandas DataFrame:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Läsa och skriva olika filformat
Kommentar
Om du ändrar versionen av ett visst paket kan det eventuellt bryta andra paket som är beroende av det. Till exempel kan nedgradering azure-storage-blob
orsaka problem med Pandas
och olika andra bibliotek som förlitar sig på Pandas
, inklusive mssparkutils
, fsspec_wrapper
och notebookutils
.
Du kan visa listan över förinstallerade paket och deras versioner för varje körning här.
Dessa kodexempel beskriver Pandas-åtgärderna för att läsa och skriva olika filformat.
Kommentar
Du måste ersätta filsökvägarna i dessa kodexempel. Pandas stöder både relativa sökvägar, som visas här, och fullständiga ABFS-sökvägar. Sökvägar av båda typerna kan hämtas och kopieras från gränssnittet enligt föregående steg.
Läsa data från en CSV-fil
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Skriva data som en CSV-fil
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Läsa data från en Parquet-fil
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Skriva data som en Parquet-fil
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Läsa data från en Excel-fil
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Skriva data som en Excel-fil
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Läsa data från en JSON-fil
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Skriva data som en JSON-fil
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Relaterat innehåll
- Använda Data Wrangler för att rensa och förbereda dina data
- Starta ML-träningsmodeller