Κοινή χρήση μέσω


Πώς μπορείτε να διαβάσετε και να γράψετε δεδομένα με το Pandas στο Microsoft Fabric

Τα σημειωματάρια Microsoft Fabric υποστηρίζουν απρόσκοπτη αλληλεπίδραση με δεδομένα Lakehouse που χρησιμοποιούν το Pandas, την πιο δημοφιλή βιβλιοθήκη Python για εξερεύνηση και επεξεργασία δεδομένων. Μέσα σε ένα σημειωματάριο, μπορείτε να διαβάσετε γρήγορα δεδομένα από τους πόρους του Lakehouse και να τα γράψετε στους πόρους τους σε διάφορες μορφές αρχείων. Αυτός ο οδηγός παρέχει δείγματα κώδικα για να σας βοηθήσει να ξεκινήσετε με το δικό σας σημειωματάριο.

Προαπαιτούμενα στοιχεία

  • Λάβετε μια συνδρομή Microsoft Fabric. Εναλλακτικά, εγγραφείτε για μια δωρεάν δοκιμαστική έκδοση του Microsoft Fabric.

  • Εισέλθετε στο Microsoft Fabric.

  • Χρησιμοποιήστε την εναλλαγή εμπειρίας στην αριστερή πλευρά της αρχικής σελίδας σας για να μεταβείτε στην εμπειρία Synapse Data Science.

    Στιγμιότυπο οθόνης του μενού εναλλαγής εμπειρίας, που εμφανίζει πού μπορείτε να επιλέξετε Επιστήμη δεδομένων.

Φόρτωση δεδομένων Lakehouse σε σημειωματάριο

Αφού επισυνάψετε ένα Lakehouse στο σημειωματάριό σας Microsoft Fabric, μπορείτε να εξερευνήσετε αποθηκευμένα δεδομένα χωρίς να αφήσετε τη σελίδα και να τα διαβάσετε στο σημειωματάριό σας, όλα με λίγα βήματα. Η επιλογή οποιουδήποτε αρχείου Lakehouse εμφανίζει επιλογές για "Φόρτωση δεδομένων" σε ένα Spark ή ένα DataFrame Pandas. Μπορείτε επίσης να αντιγράψετε την πλήρη διαδρομή ABFS του αρχείου ή μια φιλική σχετική διαδρομή.

Στιγμιότυπο οθόνης που εμφανίζει τις επιλογές για τη φόρτωση δεδομένων σε ένα Pandas DataFrame.

Η επιλογή ενός από τα μηνύματα προτροπής "Φόρτωση δεδομένων" δημιουργεί ένα κελί κώδικα για τη φόρτωση αυτού του αρχείου σε ένα DataFrame στο σημειωματάριό σας.

Στιγμιότυπο οθόνης που εμφανίζει ένα κελί κώδικα να έχει προστεθεί στο σημειωματάριο.

Μετατροπή ενός Spark DataFrame σε ένα DataFrame Pandas

Για αναφορά, αυτή η εντολή εμφανίζει τον τρόπο μετατροπής ενός Spark DataFrame σε ένα DataFrame Pandas:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Ανάγνωση και εγγραφή διαφόρων μορφών αρχείων

Σημείωμα

Η τροποποίηση της έκδοσης ενός συγκεκριμένου πακέτου μπορεί πιθανώς να προκαλέσει καταστροφή άλλων πακέτων που εξαρτώνται από αυτό. Για παράδειγμα, η azure-storage-blob υποβάθμιση μπορεί να προκαλέσει προβλήματα με Pandas το και διάφορες άλλες βιβλιοθήκες που βασίζονται στο Pandas, συμπεριλαμβανομένων των mssparkutils, fsspec_wrapperκαι notebookutils. Μπορείτε να δείτε τη λίστα των προεγκατεστημένων πακέτων και τις εκδόσεις τους για κάθε χρόνο εκτέλεσης εδώ.

Αυτά τα δείγματα κώδικα περιγράφουν τις λειτουργίες Pandas για την ανάγνωση και εγγραφή διαφόρων μορφών αρχείων.

Σημείωμα

Πρέπει να αντικαταστήσετε τις διαδρομές αρχείων σε αυτά τα δείγματα κώδικα. Το Pandas υποστηρίζει αμφότερες τις σχετικές διαδρομές, όπως φαίνεται εδώ, καθώς και πλήρεις διαδρομές ABFS. Οι διαδρομές οποιουδήποτε τύπου μπορούν να ανακτηθούν και να αντιγραφούν από τη διασύνδεση σύμφωνα με το προηγούμενο βήμα.

Ανάγνωση δεδομένων από αρχείο CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Εγγραφή δεδομένων ως αρχείοΥ CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Ανάγνωση δεδομένων από αρχείο Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Εγγραφή δεδομένων ως αρχείο Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Ανάγνωση δεδομένων από αρχείο του Excel

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Εγγραφή δεδομένων ως αρχείο του Excel

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Ανάγνωση δεδομένων από αρχείο JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Εγγραφή δεδομένων ως αρχείο JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")