Freigeben über


Lesen und Schreiben von Daten mit Pandas in Microsoft Fabric

Microsoft Fabric-Notebooks unterstützen die nahtlose Interaktion mit Lakehouse-Daten mithilfe von Pandas, der beliebtesten Python-Bibliothek für die Datenuntersuchung und -verarbeitung. In einem Notebook können Sie Daten in einer Vielzahl von Dateiformaten schnell aus ihren Lakehouses lesen und in diese zurückschreiben. Dieser Leitfaden enthält Codebeispiele, die Ihnen den Einstieg mit Ihrem eigenen Notebook erleichtern.

Voraussetzungen

Laden von Lakehouse-Daten in ein Notebook

Nachdem Sie ein Lakehouse an Ihr Microsoft Fabric-Notebook angefügt haben, können Sie gespeicherte Daten untersuchen, ohne die Seite zu verlassen, und sie in wenigen Schritten in Ihr Notizbuch einlesen. Die Auswahl einer Lakehouse-Datei zeigt Optionen für „Daten laden“ in einen Spark- oder Pandas-Dataframe an. Sie können alternativ auch den vollständigen ABFS-Pfad der Datei oder einen benutzerfreundlichen relativen Pfad kopieren.

Screenshot: Position der Optionen zum Laden von Daten in einen Pandas-Dataframe.

Wenn Sie eine der Aufforderungen „Daten laden“ auswählen, wird eine Codezelle zum Laden der Datei in einen Dataframe in Ihrem Notebook generiert.

Screenshot: Anzeige einer dem Notebook hinzugefügte Codezelle.

Konvertieren eines Spark-Dataframes in einen Pandas-Dataframe

Dieser Befehl zeigt als Orientierung, wie Sie einen Spark-Dataframe in einen Pandas-DataFrame konvertieren:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Lesen und Schreiben verschiedener Dateiformate

Hinweis

Das Ändern der Version eines bestimmten Pakets könnte möglicherweise dazu führen, dass andere Pakete nicht mehr funktionieren, die davon abhängig sind. Beispielsweise kann das Herabstufen von azure-storage-blob Probleme mit Pandas und verschiedenen anderen Bibliotheken verursachen, die auf Pandas basieren, einschließlich mssparkutils, fsspec_wrapper und notebookutils. Sie können die Liste der vorinstallierten Pakete und deren Versionen für jede Laufzeit hier anzeigen.

Diese Codebeispiele beschreiben die Pandas-Vorgänge zum Lesen und Schreiben verschiedener Dateiformate.

Hinweis

Sie müssen die Dateipfade in diesen Code-Beispielen ersetzen. Pandas unterstützt wie hier gezeigt sowohl relative Pfade als auch vollständige ABFS-Pfade. Beide Arten an Pfaden können gemäß dem vorherigen Schritt abgerufen und von der Schnittstelle kopiert werden.

Lesen von Daten aus einer CSV-Datei

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Schreiben von Daten als CSV-Datei

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Lesen von Daten aus einer Parquet-Datei

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Schreiben von Daten als Parquet-Datei

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Lesen von Daten aus einer Excel-Datei

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Schreiben von Daten als Excel-Datei

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Lesen von Daten aus einer JSON-Datei

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Schreiben von Daten als JSON-Datei

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")