Delen via


Gegevens lezen en schrijven met Pandas in Microsoft Fabric

Microsoft Fabric-notebooks ondersteunen naadloze interactie met Lakehouse-gegevens met behulp van Pandas, de populairste Python-bibliotheek voor gegevensverkenning en -verwerking. In een notebook kunt u snel gegevens lezen van en terugschrijven naar hun Lakehouse-resources in verschillende bestandsindelingen. Deze handleiding bevat codevoorbeelden om aan de slag te gaan in uw eigen notebook.

Vereisten

Lakehouse-gegevens laden in een notebook

Zodra u een Lakehouse aan uw Microsoft Fabric-notebook hebt gekoppeld, kunt u opgeslagen gegevens verkennen zonder de pagina te verlaten en deze in uw notitieblok te lezen, allemaal met een paar stappen. Selectie van een Lakehouse-bestand biedt opties voor het laden van gegevens in een Spark- of Pandas-dataframe. U kunt ook het volledige ABFS-pad van het bestand of een vriendelijk relatief pad kopiëren.

Schermopname van de opties voor het laden van gegevens in een Pandas DataFrame.

Als u een van de prompts 'Gegevens laden' selecteert, wordt er een codecel gegenereerd om dat bestand in een DataFrame in uw notebook te laden.

Schermopname van een codecel die is toegevoegd aan het notebook.

Een Spark DataFrame converteren naar een Pandas DataFrame

Ter referentie laat deze opdracht zien hoe u een Spark DataFrame converteert naar een Pandas DataFrame:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Verschillende bestandsindelingen lezen en schrijven

Notitie

Als u de versie van een specifiek pakket wijzigt, kunnen andere pakketten die hiervan afhankelijk zijn mogelijk worden onderbroken. Downgrading azure-storage-blob kan bijvoorbeeld problemen veroorzaken met Pandas en verschillende andere bibliotheken die afhankelijk Pandaszijn van , inclusief mssparkutils, fsspec_wrapperen notebookutils. U kunt hier de lijst met vooraf geïnstalleerde pakketten en de bijbehorende versies voor elke runtime bekijken.

In deze codevoorbeelden worden de Pandas-bewerkingen beschreven voor het lezen en schrijven van verschillende bestandsindelingen.

Notitie

U moet de bestandspaden in deze codevoorbeelden vervangen. Pandas ondersteunt zowel relatieve paden, zoals hier wordt weergegeven, als volledige ABFS-paden. Paden van beide typen kunnen worden opgehaald en gekopieerd uit de interface volgens de vorige stap.

Gegevens uit een CSV-bestand lezen

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Gegevens schrijven als een CSV-bestand

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Gegevens lezen uit een Parquet-bestand

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Gegevens schrijven als Parquet-bestand

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Gegevens lezen uit een Excel-bestand

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Gegevens schrijven als een Excel-bestand

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Gegevens lezen uit een JSON-bestand

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Gegevens schrijven als een JSON-bestand

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
  • Data Wrangler gebruiken om uw gegevens op te schonen en voor te bereiden
  • ML-modellen trainen