Udostępnij za pośrednictwem


Jak odczytywać i zapisywać dane za pomocą biblioteki Pandas w usłudze Microsoft Fabric

Notesy usługi Microsoft Fabric obsługują bezproblemową interakcję z danymi usługi Lakehouse przy użyciu biblioteki Pandas, najpopularniejszej biblioteki języka Python na potrzeby eksploracji i przetwarzania danych. W notesie można szybko odczytywać dane z i zapisywać dane z powrotem do zasobów usługi Lakehouse w różnych formatach plików. Ten przewodnik zawiera przykłady kodu ułatwiające rozpoczęcie pracy we własnym notesie.

Wymagania wstępne

Ładowanie danych usługi Lakehouse do notesu

Po dołączeniu usługi Lakehouse do notesu usługi Microsoft Fabric możesz eksplorować przechowywane dane bez opuszczania strony i odczytywać je do notesu, wykonując kilka kroków. Wybór dowolnego obszaru plików lakehouse opcje "Ładowanie danych" do platformy Spark lub ramki danych Biblioteki Pandas. Możesz również skopiować pełną ścieżkę ABFS pliku lub przyjazną ścieżkę względną.

Zrzut ekranu przedstawiający opcje ładowania danych do ramki danych Biblioteki Pandas.

Wybranie jednego z monitów "Ładowanie danych" powoduje wygenerowanie komórki kodu w celu załadowania tego pliku do ramki danych w notesie.

Zrzut ekranu przedstawiający komórkę kodu dodaną do notesu.

Konwertowanie ramki danych platformy Spark na ramkę danych biblioteki Pandas

W tym poleceniu pokazano, jak przekonwertować ramkę danych platformy Spark na ramkę danych Biblioteki Pandas:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Odczytywanie i zapisywanie różnych formatów plików

Uwaga

Zmodyfikowanie wersji określonego pakietu może potencjalnie spowodować przerwanie innych pakietów, które od niego zależą. Na przykład obniżenie poziomu azure-storage-blob może powodować problemy z różnymi bibliotekami, które korzystają Pandasz Pandas elementów , w tym mssparkutils, fsspec_wrapperi notebookutils. Listę wstępnie zainstalowanych pakietów i ich wersji dla każdego środowiska uruchomieniowego można wyświetlić tutaj.

Te przykłady kodu opisują operacje biblioteki Pandas umożliwiające odczytywanie i zapisywanie różnych formatów plików.

Uwaga

Należy zastąpić ścieżki plików w tych przykładach kodu. Biblioteka Pandas obsługuje zarówno ścieżki względne, jak pokazano tutaj, i pełne ścieżki ABFS. Ścieżki dowolnego typu można pobrać i skopiować z interfejsu zgodnie z poprzednim krokiem.

Odczytywanie danych z pliku CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Zapisywanie danych jako pliku CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Odczytywanie danych z pliku Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Zapisywanie danych jako pliku Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Odczytywanie danych z pliku programu Excel

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Zapisywanie danych jako pliku programu Excel

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Odczytywanie danych z pliku JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Zapisywanie danych jako pliku JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")