Sådan læser og skriver du data med Pandas i Microsoft Fabric
Microsoft Fabric-notesbøger understøtter problemfri interaktion med Lakehouse-data ved hjælp af Pandas, det mest populære Python-bibliotek til udforskning og behandling af data. I en notesbog kan du hurtigt læse data fra og skrive data tilbage til deres Lakehouse-ressourcer i forskellige filformater. Denne vejledning indeholder kodeeksempler, der kan hjælpe dig med at komme i gang i din egen notesbog.
Forudsætninger
Få et Microsoft Fabric-abonnement. Du kan også tilmelde dig en gratis Prøveversion af Microsoft Fabric.
Brug oplevelsesskifteren nederst til venstre på startsiden til at skifte til Fabric.
Indlæs Lakehouse-data i en notesbog
Når du har knyttet et Lakehouse til din Microsoft Fabric-notesbog, kan du udforske gemte data uden at forlade siden og læse dem i din notesbog med nogle få trin. Valg af alle Lakehouse-filer viser muligheder for at "indlæse data" i en Spark- eller Pandas-dataramme. Du kan også kopiere filens fulde ABFS-sti eller en læsevenlig relativ sti.
Hvis du vælger en af prompterne "Indlæs data", genereres der en kodecelle for at indlæse filen i en DataFrame i din notesbog.
Konvertering af en Spark DataFrame til en Pandas DataFrame
Som reference viser denne kommando, hvordan du konverterer en Spark DataFrame til en Pandas DataFrame:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Læse og skrive forskellige filformater
Bemærk
Ændring af versionen af en bestemt pakke kan potentielt ødelægge andre pakker, der er afhængige af den. Nedgradering azure-storage-blob
kan f.eks. medføre problemer med Pandas
og forskellige andre biblioteker, der er afhængige Pandas
af , herunder mssparkutils
, fsspec_wrapper
og notebookutils
.
Du kan få vist listen over forudinstallerede pakker og deres versioner for hver kørsel her.
Disse kodeeksempler beskriver Pandas-handlingerne til at læse og skrive forskellige filformater.
Bemærk
Du skal erstatte filstierne i disse kodeeksempler. Pandas understøtter både relative stier, som vist her, og komplette ABFS-stier. Stier af begge typer kan hentes og kopieres fra grænsefladen i henhold til det forrige trin.
Læs data fra en CSV-fil
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Skriv data som en CSV-fil
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Læs data fra en Parquet-fil
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Skriv data som en parquetfil
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Læs data fra en Excel-fil
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Skriv data som en Excel-fil
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Læs data fra en JSON-fil
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Skriv data som en JSON-fil
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Relateret indhold
- Brug Data Wrangler til at rense og forberede dine data
- Start oplæring af ML-modeller