Gegevens lezen en schrijven met Pandas in Microsoft Fabric
Microsoft Fabric-notebooks ondersteunen naadloze interactie met Lakehouse-gegevens met behulp van Pandas, de populairste Python-bibliotheek voor gegevensverkenning en -verwerking. In een notebook kunt u snel gegevens lezen van en terugschrijven naar hun Lakehouse-resources in verschillende bestandsindelingen. Deze handleiding bevat codevoorbeelden om aan de slag te gaan in uw eigen notebook.
Vereisten
Haal een Microsoft Fabric-abonnement op. Of meld u aan voor een gratis proefversie van Microsoft Fabric.
Meld u aan bij Microsoft Fabric.
Gebruik de ervaringswisselaar aan de linkerkant van de startpagina om over te schakelen naar Fabric.
Lakehouse-gegevens laden in een notebook
Zodra u een Lakehouse aan uw Microsoft Fabric-notebook hebt gekoppeld, kunt u opgeslagen gegevens verkennen zonder de pagina te verlaten en deze in uw notitieblok te lezen, allemaal met een paar stappen. Selectie van een Lakehouse-bestand biedt opties voor het laden van gegevens in een Spark- of Pandas-dataframe. U kunt ook het volledige ABFS-pad van het bestand of een vriendelijk relatief pad kopiëren.
Als u een van de prompts 'Gegevens laden' selecteert, wordt er een codecel gegenereerd om dat bestand in een DataFrame in uw notebook te laden.
Een Spark DataFrame converteren naar een Pandas DataFrame
Ter referentie laat deze opdracht zien hoe u een Spark DataFrame converteert naar een Pandas DataFrame:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Verschillende bestandsindelingen lezen en schrijven
Notitie
Als u de versie van een specifiek pakket wijzigt, kunnen andere pakketten die hiervan afhankelijk zijn mogelijk worden onderbroken. Downgrading azure-storage-blob
kan bijvoorbeeld problemen veroorzaken met Pandas
en verschillende andere bibliotheken die afhankelijk Pandas
zijn van , inclusief mssparkutils
, fsspec_wrapper
en notebookutils
.
U kunt hier de lijst met vooraf geïnstalleerde pakketten en de bijbehorende versies voor elke runtime bekijken.
In deze codevoorbeelden worden de Pandas-bewerkingen beschreven voor het lezen en schrijven van verschillende bestandsindelingen.
Notitie
U moet de bestandspaden in deze codevoorbeelden vervangen. Pandas ondersteunt zowel relatieve paden, zoals hier wordt weergegeven, als volledige ABFS-paden. Paden van beide typen kunnen worden opgehaald en gekopieerd uit de interface volgens de vorige stap.
Gegevens uit een CSV-bestand lezen
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Gegevens schrijven als een CSV-bestand
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Gegevens lezen uit een Parquet-bestand
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Gegevens schrijven als Parquet-bestand
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Gegevens lezen uit een Excel-bestand
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Gegevens schrijven als een Excel-bestand
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Gegevens lezen uit een JSON-bestand
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Gegevens schrijven als een JSON-bestand
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")