Lesen und Schreiben von Daten mit Pandas in Microsoft Fabric
Microsoft Fabric-Notebooks unterstützen die nahtlose Interaktion mit Lakehouse-Daten mithilfe von Pandas, der beliebtesten Python-Bibliothek für die Datenuntersuchung und -verarbeitung. In einem Notebook können Sie Daten in einer Vielzahl von Dateiformaten schnell aus ihren Lakehouses lesen und in diese zurückschreiben. Dieser Leitfaden enthält Codebeispiele, die Ihnen den Einstieg mit Ihrem eigenen Notebook erleichtern.
Voraussetzungen
Erwerben Sie ein Microsoft Fabric-Abonnement. Registrieren Sie sich alternativ für eine kostenlose Microsoft Fabric-Testversion.
Melden Sie sich bei Microsoft Fabric an.
Wechseln Sie zur Synapse-Data Science-Benutzeroberfläche, indem Sie den Umschalter für die Benutzeroberfläche auf der linken Seite Ihrer Homepage verwenden.
Laden von Lakehouse-Daten in ein Notebook
Nachdem Sie ein Lakehouse an Ihr Microsoft Fabric-Notebook angefügt haben, können Sie gespeicherte Daten untersuchen, ohne die Seite zu verlassen, und sie in wenigen Schritten in Ihr Notizbuch einlesen. Die Auswahl einer Lakehouse-Datei zeigt Optionen für „Daten laden“ in einen Spark- oder Pandas-Dataframe an. Sie können alternativ auch den vollständigen ABFS-Pfad der Datei oder einen benutzerfreundlichen relativen Pfad kopieren.
Wenn Sie eine der Aufforderungen „Daten laden“ auswählen, wird eine Codezelle zum Laden der Datei in einen Dataframe in Ihrem Notebook generiert.
Konvertieren eines Spark-Dataframes in einen Pandas-Dataframe
Dieser Befehl zeigt als Orientierung, wie Sie einen Spark-Dataframe in einen Pandas-DataFrame konvertieren:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Lesen und Schreiben verschiedener Dateiformate
Hinweis
Das Ändern der Version eines bestimmten Pakets könnte möglicherweise dazu führen, dass andere Pakete nicht mehr funktionieren, die davon abhängig sind. Beispielsweise kann das Herabstufen von azure-storage-blob
Probleme mit Pandas
und verschiedenen anderen Bibliotheken verursachen, die auf Pandas
basieren, einschließlich mssparkutils
, fsspec_wrapper
und notebookutils
.
Sie können die Liste der vorinstallierten Pakete und deren Versionen für jede Laufzeit hier anzeigen.
Diese Codebeispiele beschreiben die Pandas-Vorgänge zum Lesen und Schreiben verschiedener Dateiformate.
Hinweis
Sie müssen die Dateipfade in diesen Code-Beispielen ersetzen. Pandas unterstützt wie hier gezeigt sowohl relative Pfade als auch vollständige ABFS-Pfade. Beide Arten an Pfaden können gemäß dem vorherigen Schritt abgerufen und von der Schnittstelle kopiert werden.
Lesen von Daten aus einer CSV-Datei
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Schreiben von Daten als CSV-Datei
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Lesen von Daten aus einer Parquet-Datei
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Schreiben von Daten als Parquet-Datei
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Lesen von Daten aus einer Excel-Datei
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Schreiben von Daten als Excel-Datei
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Lesen von Daten aus einer JSON-Datei
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Schreiben von Daten als JSON-Datei
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Zugehöriger Inhalt
- Verwenden von Data Wrangler zum Bereinigen und Aufbereiten Ihrer Daten
- Starten des Trainierens von ML-Modellen