Πώς μπορείτε να διαβάσετε και να γράψετε δεδομένα με το Pandas στο Microsoft Fabric
Τα σημειωματάρια Microsoft Fabric υποστηρίζουν απρόσκοπτη αλληλεπίδραση με δεδομένα Lakehouse που χρησιμοποιούν το Pandas, την πιο δημοφιλή βιβλιοθήκη Python για εξερεύνηση και επεξεργασία δεδομένων. Μέσα σε ένα σημειωματάριο, μπορείτε να διαβάσετε γρήγορα δεδομένα από τους πόρους του Lakehouse και να τα γράψετε στους πόρους τους σε διάφορες μορφές αρχείων. Αυτός ο οδηγός παρέχει δείγματα κώδικα για να σας βοηθήσει να ξεκινήσετε με το δικό σας σημειωματάριο.
Προαπαιτούμενα στοιχεία
Λάβετε μια συνδρομή Microsoft Fabric. Εναλλακτικά, εγγραφείτε για μια δωρεάν δοκιμαστική έκδοση του Microsoft Fabric.
Εισέλθετε στο Microsoft Fabric.
Χρησιμοποιήστε την εναλλαγή εμπειρίας στην αριστερή πλευρά της αρχικής σελίδας σας για να μεταβείτε στην εμπειρία Synapse Data Science.
Φόρτωση δεδομένων Lakehouse σε σημειωματάριο
Αφού επισυνάψετε ένα Lakehouse στο σημειωματάριό σας Microsoft Fabric, μπορείτε να εξερευνήσετε αποθηκευμένα δεδομένα χωρίς να αφήσετε τη σελίδα και να τα διαβάσετε στο σημειωματάριό σας, όλα με λίγα βήματα. Η επιλογή οποιουδήποτε αρχείου Lakehouse εμφανίζει επιλογές για "Φόρτωση δεδομένων" σε ένα Spark ή ένα DataFrame Pandas. Μπορείτε επίσης να αντιγράψετε την πλήρη διαδρομή ABFS του αρχείου ή μια φιλική σχετική διαδρομή.
Η επιλογή ενός από τα μηνύματα προτροπής "Φόρτωση δεδομένων" δημιουργεί ένα κελί κώδικα για τη φόρτωση αυτού του αρχείου σε ένα DataFrame στο σημειωματάριό σας.
Μετατροπή ενός Spark DataFrame σε ένα DataFrame Pandas
Για αναφορά, αυτή η εντολή εμφανίζει τον τρόπο μετατροπής ενός Spark DataFrame σε ένα DataFrame Pandas:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Ανάγνωση και εγγραφή διαφόρων μορφών αρχείων
Σημείωμα
Η τροποποίηση της έκδοσης ενός συγκεκριμένου πακέτου μπορεί πιθανώς να προκαλέσει καταστροφή άλλων πακέτων που εξαρτώνται από αυτό. Για παράδειγμα, η azure-storage-blob
υποβάθμιση μπορεί να προκαλέσει προβλήματα με Pandas
το και διάφορες άλλες βιβλιοθήκες που βασίζονται στο Pandas
, συμπεριλαμβανομένων των mssparkutils
, fsspec_wrapper
και notebookutils
.
Μπορείτε να δείτε τη λίστα των προεγκατεστημένων πακέτων και τις εκδόσεις τους για κάθε χρόνο εκτέλεσης εδώ.
Αυτά τα δείγματα κώδικα περιγράφουν τις λειτουργίες Pandas για την ανάγνωση και εγγραφή διαφόρων μορφών αρχείων.
Σημείωμα
Πρέπει να αντικαταστήσετε τις διαδρομές αρχείων σε αυτά τα δείγματα κώδικα. Το Pandas υποστηρίζει αμφότερες τις σχετικές διαδρομές, όπως φαίνεται εδώ, καθώς και πλήρεις διαδρομές ABFS. Οι διαδρομές οποιουδήποτε τύπου μπορούν να ανακτηθούν και να αντιγραφούν από τη διασύνδεση σύμφωνα με το προηγούμενο βήμα.
Ανάγνωση δεδομένων από αρχείο CSV
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Εγγραφή δεδομένων ως αρχείοΥ CSV
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Ανάγνωση δεδομένων από αρχείο Parquet
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Εγγραφή δεδομένων ως αρχείο Parquet
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Ανάγνωση δεδομένων από αρχείο του Excel
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Εγγραφή δεδομένων ως αρχείο του Excel
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Ανάγνωση δεδομένων από αρχείο JSON
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Εγγραφή δεδομένων ως αρχείο JSON
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Σχετικό περιεχόμενο
- Χρήση του Data Wrangler για εκκαθάριση και προετοιμασία των δεδομένων σας
- Έναρξη εκπαίδευσης μοντέλων εκμάθησης μηχανής