Jak odczytywać i zapisywać dane za pomocą biblioteki Pandas w usłudze Microsoft Fabric
Notesy usługi Microsoft Fabric obsługują bezproblemową interakcję z danymi usługi Lakehouse przy użyciu biblioteki Pandas, najpopularniejszej biblioteki języka Python na potrzeby eksploracji i przetwarzania danych. W notesie można szybko odczytywać dane z i zapisywać dane z powrotem do zasobów usługi Lakehouse w różnych formatach plików. Ten przewodnik zawiera przykłady kodu ułatwiające rozpoczęcie pracy we własnym notesie.
Wymagania wstępne
Uzyskaj subskrypcję usługi Microsoft Fabric. Możesz też utworzyć konto bezpłatnej wersji próbnej usługi Microsoft Fabric.
Zaloguj się do usługi Microsoft Fabric.
Użyj przełącznika doświadczenia w lewej dolnej części strony głównej, aby przełączyć się na Fabric.
Ładowanie danych usługi Lakehouse do notesu
Po dołączeniu usługi Lakehouse do notesu usługi Microsoft Fabric możesz eksplorować przechowywane dane bez opuszczania strony i odczytywać je do notesu, wykonując kilka kroków. Wybór dowolnego obszaru plików lakehouse opcje "Ładowanie danych" do platformy Spark lub ramki danych Biblioteki Pandas. Możesz również skopiować pełną ścieżkę ABFS pliku lub przyjazną ścieżkę względną.
Wybranie jednego z monitów "Ładowanie danych" powoduje wygenerowanie komórki kodu w celu załadowania tego pliku do ramki danych w notesie.
Konwertowanie ramki danych platformy Spark na ramkę danych biblioteki Pandas
W tym poleceniu pokazano, jak przekonwertować ramkę danych platformy Spark na ramkę danych Biblioteki Pandas:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Odczytywanie i zapisywanie różnych formatów plików
Uwaga
Zmodyfikowanie wersji określonego pakietu może potencjalnie spowodować przerwanie innych pakietów, które od niego zależą. Na przykład obniżenie poziomu azure-storage-blob
może powodować problemy z różnymi bibliotekami, które korzystają Pandas
z Pandas
elementów , w tym mssparkutils
, fsspec_wrapper
i notebookutils
.
Listę wstępnie zainstalowanych pakietów i ich wersji dla każdego środowiska uruchomieniowego można wyświetlić tutaj.
Te przykłady kodu opisują operacje biblioteki Pandas umożliwiające odczytywanie i zapisywanie różnych formatów plików.
Uwaga
Należy zastąpić ścieżki plików w tych przykładach kodu. Biblioteka Pandas obsługuje zarówno ścieżki względne, jak pokazano tutaj, i pełne ścieżki ABFS. Ścieżki dowolnego typu można pobrać i skopiować z interfejsu zgodnie z poprzednim krokiem.
Odczytywanie danych z pliku CSV
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Zapisywanie danych jako pliku CSV
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Odczytywanie danych z pliku Parquet
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Zapisywanie danych jako pliku Parquet
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Odczytywanie danych z pliku programu Excel
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Zapisywanie danych jako pliku programu Excel
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Odczytywanie danych z pliku JSON
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Zapisywanie danych jako pliku JSON
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Powiązana zawartość
- Czyszczenie i przygotowywanie danych przy użyciu narzędzia Data Wrangler
- Rozpoczynanie trenowania modeli uczenia maszynowego