Del via


Sådan læser og skriver du data med Pandas i Microsoft Fabric

Microsoft Fabric-notesbøger understøtter problemfri interaktion med Lakehouse-data ved hjælp af Pandas, det mest populære Python-bibliotek til udforskning og behandling af data. I en notesbog kan du hurtigt læse data fra og skrive data tilbage til deres Lakehouse-ressourcer i forskellige filformater. Denne vejledning indeholder kodeeksempler, der kan hjælpe dig med at komme i gang i din egen notesbog.

Forudsætninger

  • Få et Microsoft Fabric-abonnement. Du kan også tilmelde dig en gratis Prøveversion af Microsoft Fabric.

  • Log på Microsoft Fabric.

  • Brug oplevelsesskifteren nederst til venstre på startsiden til at skifte til Fabric.

    Skærmbillede af menuen til skift af oplevelse, der viser, hvor du skal vælge Datavidenskab.

Indlæs Lakehouse-data i en notesbog

Når du har knyttet et Lakehouse til din Microsoft Fabric-notesbog, kan du udforske gemte data uden at forlade siden og læse dem i din notesbog med nogle få trin. Valg af alle Lakehouse-filer viser muligheder for at "indlæse data" i en Spark- eller Pandas-dataramme. Du kan også kopiere filens fulde ABFS-sti eller en læsevenlig relativ sti.

Skærmbillede, der viser indstillingerne for indlæsning af data i en Pandas DataFrame.

Hvis du vælger en af prompterne "Indlæs data", genereres der en kodecelle for at indlæse filen i en DataFrame i din notesbog.

Skærmbillede, der viser en kodecelle, der er føjet til notesbogen.

Konvertering af en Spark DataFrame til en Pandas DataFrame

Som reference viser denne kommando, hvordan du konverterer en Spark DataFrame til en Pandas DataFrame:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Læse og skrive forskellige filformater

Bemærk

Ændring af versionen af en bestemt pakke kan potentielt ødelægge andre pakker, der er afhængige af den. Nedgradering azure-storage-blob kan f.eks. medføre problemer med Pandas og forskellige andre biblioteker, der er afhængige Pandasaf , herunder mssparkutils, fsspec_wrapperog notebookutils. Du kan få vist listen over forudinstallerede pakker og deres versioner for hver kørsel her.

Disse kodeeksempler beskriver Pandas-handlingerne til at læse og skrive forskellige filformater.

Bemærk

Du skal erstatte filstierne i disse kodeeksempler. Pandas understøtter både relative stier, som vist her, og komplette ABFS-stier. Stier af begge typer kan hentes og kopieres fra grænsefladen i henhold til det forrige trin.

Læs data fra en CSV-fil

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Skriv data som en CSV-fil

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Læs data fra en Parquet-fil

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Skriv data som en parquetfil

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Læs data fra en Excel-fil

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Skriv data som en Excel-fil

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Læs data fra en JSON-fil

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Skriv data som en JSON-fil

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")