Κοινή χρήση μέσω


Εξαγωγή δεδομένων Dataverse σε μορφή Delta Lake

Χρησιμοποιήστε το Azure Synapse Link for Dataverse για να εξαγάγετε τα δεδομένα Microsoft Dataverse στο Azure Synapse Analytics σε μορφή Delta Lake. Στη συνέχεια, εξερευνήστε τα δεδομένα σας και επιταχύνετε τον χρόνο για πληροφόρηση. Σε αυτό το άρθρο παρέχονται οι ακόλουθες πληροφορίες και παρουσιάζεται ο τρόπος εκτέλεσης των ακόλουθων εργασιών:

  • Εξηγεί το Delta Lake και το Parquet καθώς και τον λόγο για τον οποίο πρέπει να εξαγάγετε δεδομένα σε αυτήν τη μορφή.
  • Εξαγάγετε τα δεδομένα σας Dataverse στον χώρο εργασίας σας Azure Synapse Analytics σε μορφή Delta Lake με το Azure Synapse Link.
  • Παρακολουθήστε το Azure Synapse Link και τη μετατροπή δεδομένων.
  • Προβολή των δεδομένων σας από το Azure Data Lake Storage Gen2.
  • Προβάλετε τα δεδομένα σας από τον χώρο εργασίας Synapse.

Σημαντικό

  • Εάν αναβαθμίζετε από CSV σε Delta Lake με υπάρχουσες προσαρμοσμένες προβολές, συνιστούμε να ενημερώσετε το σενάριο για να αντικαταστήσετε όλους τους κατατμημένους πίνακες σε μη κατατμημένους. Κάντε το αυτό αναζητώντας παρουσίες του _partitioned και αντικαταστήστε τις με μια κενή συμβολοσειρά.
  • Για τη ρύθμιση παραμέτρων Dataverse, η επιλογή "μόνο προσάρτηση" ενεργοποιείται από προεπιλογή για την εξαγωγή δεδομένων CSV σε λειτουργία appendonly. Ωστόσο, ο πίνακας Delta Lake θα έχει εφαρμοσμένη δομή ενημέρωσης, καθώς η μετατροπή Delta Lake συνοδεύεται από διαδικασία περιοδικής συγχώνευσης.
  • Δεν προκύπτουν δαπάνες για τη δημιουργία των χώρου συγκέντρωσης Spark. Οι χρεώσεις προκύπτουν μόνο μόλις εκτελεστεί μια εργασία Spark στον χώρο συγκέντρωσης Spark προορισμού και η παρουσία Spark έχει προκύψει κατ' απαίτηση. Αυτές οι δαπάνες σχετίζονται με τη χρήση του Spark Azure Synapse workspace και τιμολογούνται μηνιαία. Το κόστος διεξαγωγής υπολογισμού Spark εξαρτάται κυρίως από το χρονικό διάστημα για την τμηματική ενημέρωση και τους όγκους των δεδομένων. Περισσότερες πληροφορίες: Τιμολόγηση Azure Synapse Analytics
  • Είναι σημαντικό να έχετε υπόψη σας αυτές τις πρόσθετες δαπάνες όταν αποφασίζετε να χρησιμοποιήσετε αυτήν τη δυνατότητα, καθώς δεν είναι προαιρετικές και πρέπει να πληρωθούν για να συνεχίσετε να χρησιμοποιείτε αυτήν τη δυνατότητα.
  • Ανακοινώθηκε το τέλος της ζωής (EOLA) για τον Χρόνος εκτέλεσης Azure Synapse του Apache Spark για 3.3 στις 12 Ιουλίου 2024. Σύμφωνα με την πολιτική του χρόνου εκτέλεσης Synapse για τον κύκλο ζωής Apache Spark, ο χρόνος εκτέλεσης Azure Synapse για την έκδοση 3.3 Apache Spark θα αποσυρθεί και θα απενεργοποιηθεί από τις 31 Μαρτίου 2025. Μετά την ημερομηνία EOL, τα περιβάλλοντα εκτέλεσης που αποσύρθηκαν δεν είναι διαθέσιμα για νέες ομάδες Spark και οι υπάρχουσες ροές εργασίας δεν μπορούν να εκτελεστούν. Τα μεταδεδομένα θα παραμείνουν προσωρινά στον χώρο εργασίας του Synapse. Περισσότερες πληροφορίες: Περιβάλλον εκτέλεσης Azure Synapse για Apache Spark 3.3 (EOSA). Για να αναβαθμίσετε το Synapse Link για το Dataverse με τη μορφή εξαγωγής σε Delta Lake σε Spark 3.4, κάντε μια επιτόπια αναβάθμιση για τα υπάρχοντα προφίλ σας. Περισσότερες πληροφορίες: Επιτόπια αναβάθμιση σε Apache Spark 3.4 με Delta Lake 2.4
  • Από τις 25 Δεκεμβρίου 2024, μόνο η έκδοση του Spark Pool 3.4 θα υποστηρίζεται κατά την αρχική δημιουργία της σύνδεσης.

Σημείωμα

Η κατάσταση του Azure Synapse Link στο Power Apps (make.powerapps.com) αντικατοπτρίζει την κατάσταση μετατροπής Delta Lake:

  • Το Count εμφανίζει τον αριθμό καρτελών στον πίνακα Delta Lake.
  • Η ημερομηνία/ώρα Last synchronized on αντιπροσωπεύει την τελευταία επιτυχημένη χρονική σήμανση μετατροπής.
  • Το Sync status εμφανίζεται ως ενεργό όταν ο συγχρονισμός δεδομένων και η μετατροπή Delta Lake ολοκληρωθούν, υποδεικνύοντας ότι τα δεδομένα είναι έτοιμα για επεξεργασία.

Τι είναι το Delta Lake;

Το Delta Lake είναι ένα έργο ανοιχτού κώδικα που επιτρέπει τη δημιουργία μιας αρχιτεκτονικής lakehouse πάνω από τα data lake. Το Delta Lake παρέχει συναλλαγές ACID(ατομικότητα, συνέπεια, απομόνωση και διάρκεια), μετα-δεδομένα με δυνατότητα κλιμάκωσης και ενοποιεί τη ροή και την επεξεργασία δεδομένων δέσμης πάνω από τα υπάρχοντα data lake. Το Azure Synapse Analytics είναι συμβατό με το Linux Foundation Delta Lake. Η τρέχουσα έκδοση του Delta Lake πυο περιλαμβάνεται στο Azure Synapse διαθέτει υποστήριξη γλώσσας για Scala, PySpark, και .NET. Περισσότερες πληροφορίες: Τι είναι το Delta Lake;. Επίσης, μπορείτε να μάθετε περισσότερα από το βίντεο "Εισαγωγή στους πίνακες Delta".

Το Apache Parquet είναι η μορφή γραμμής βάσης για το Delta Lake, που σας δίνει τη δυνατότητα να χρησιμοποιήσετε σχήματα αποτελεσματικής συμπίεσης και κωδικοποίησης που είναι εγγενή στη μορφή. Η μορφή αρχείου Parquet χρησιμοποιεί συμπίεση κατά στήλη. Είναι αποτελεσματικό και αποθηκεύει χώρο αποθήκευσης. Τα ερωτήματα που φέρνουν συγκεκριμένες τιμές στηλών δεν χρειάζεται να διαβάζουν ολόκληρα τα δεδομένα γραμμής βελτιώνοντας έτσι τις επιδόσεις. Επομένως, ο χώρος συγκέντρωσης SQL χωρίς διακομιστή χρειάζεται λιγότερο χρόνο και λιγότερο χώρο αποθήκευσης για την ανάγνωση των δεδομένων.

Γιατί να χρησιμοποιήσω το Delta Lake;

  • Δυνατότητα κλιμάκωσης: Το Delta Lake έχει δημιουργηθεί πάνω από την άδεια χρήσης Apache ανοιχτού κώδικα, η οποία έχει σχεδιαστεί για να ανταποκρίνεται στα πρότυπα του κλάδου για τον χειρισμό φόρτου εργασίας επεξεργασίας δεδομένων μεγάλης κλίμακας.
  • Αξιοπιστία: Το Delta Lake παρέχει συναλλαγές ACID, εξασφαλίζοντας συνέπεια και αξιοπιστία των δεδομένων ακόμη και μπροστά σε αποτυχίες ή ταυτόχρονη πρόσβαση.
  • Επιδόσεις: Το Delta Lake αξιοποιεί τη μορφή αποθήκευσης στηλών του Parquet, παρέχοντας καλύτερες τεχνικές συμπίεσης και κωδικοποίησης, οι οποίες μπορούν να οδηγήσουν σε βελτιωμένες επιδόσεις ερωτημάτων σε σχέση με τα αρχεία CSV ερωτημάτων.
  • Αποτελεσματικότητα ως προς το κόστος: Η μορφή αρχείου του Delta Lake είναι μια τεχνολογία αποθήκευσης δεδομένων συμπιεσμένη σε μεγάλο βαθμό, η οποία προσφέρει σημαντική πιθανή εξοικονόμηση χώρου αποθήκευσης για επιχειρήσεις. Αυτή η μορφή έχει σχεδιαστεί ειδικά για τη βελτιστοποίηση της επεξεργασίας δεδομένων και ενδέχεται να μειώσει τον συνολικό όγκο των δεδομένων που υπόκεινται σε επεξεργασία ή τον χρόνο που απαιτείται για τον υπολογισμό κατ' απαίτηση.
  • Συμμόρφωση με την προστασία δεδομένων: Το Delta Lake με Azure Synapse Link παρέχει εργαλεία και λειτουργίες, συμπεριλαμβανομένης της προσωρινής και της οριστικής διαγραφής, για τη συμμόρφωση με διάφορους κανονισμούς απορρήτου δεδομένων, συμπεριλαμβανομένων των Γενικός κανονισμός για την προστασία δεδομένων (ΓΚΠΔ).

Κατά τη ρύθμιση ενός Azure Synapse Link for Dataverse, μπορείτε να ενεργοποιήσετε τη δυνατότητα εξαγωγής στο Delta Lake και να συνδεθείτε με έναν χώρο εργασίας Synapse και έναν χώρο συγκέντρωσης Spark. Το Azure Synapse Link εξάγει τους επιλεγμένους Dataverse πίνακες σε μορφή CSV σε καθορισμένα χρονικά διαστήματα, επεξεργάζοντάς τους μέσω μιας εργασίας Spark μετατροπής Delta Lake. Μόλις ολοκληρωθεί αυτή η διεργασία μετατροπής, γίνεται εκκαθάριση των δεδομένων CSV για αποθήκευση. Επιπλέον, έχει προγραμματιστεί η εκτέλεση μιας σειράς εργασιών συντήρησης σε καθημερινή βάση, με αυτόματη εκτέλεση διεργασιών συμπίεσης και ανάκτησης δεδομένων για συγχώνευση και εκκαθάριση των αρχείων δεδομένων για περαιτέρω βελτιστοποίηση του χώρου αποθήκευσης και βελτίωση των επιδόσεων των ερωτημάτων.

Προϋποθέσεις

  • Dataverse: Πρέπει να έχετε τον ρόλο ασφαλείας Διαχειριστής συστήματος Dataverse. Επιπλέον, οι πίνακες που θέλετε να εξαγάγετε μέσω Azure Synapse Link πρέπει να έχουν ενεργοποιημένη την ιδιότητα Παρακολούθηση αλλαγών. Περισσότερες πληροφορίες: Επιλογές για προχωρημένους
  • Azure Data Lake Storage Gen2: Πρέπει να διαθέτετε λογαριασμό Azure Data Lake Storage Gen2 και ρόλο πρόσβασης Κατόχου και Συμμετέχοντα δεδομένων αποθηκευτικού χώρου Blob. Ο λογαριασμός χώρου αποθήκευσης πρέπει να ενεργοποιήσει τον ιεραρχικό χώρο ονομάτων και την πρόσβαση δημόσιου δικτύου τόσο για την αρχική εγκατάσταση όσο και για τον συγχρονισμό δέλτα. Το Να επιτρέπεται η πρόσβαση κλειδιού λογαριασμού χώρου αποθήκευσης απαιτείται μόνο για την αρχική εγκατάσταση.
  • Χώρος εργασίας Synapse: Πρέπει να έχετε ένα χώρο εργασίας και ρόλο Κατόχου σε έλεγχο πρόσβασης (AM) και πρόσβαση ρόλου Διαχειριστής Synapse στο Synapse Studio. Ο χώρος εργασίας Synapse πρέπει να βρίσκεται στην ίδια περιοχή με το λογαριασμό Azure Data Lake Storage Gen2. Ο λογαριασμός αποθήκευσης πρέπει να προστεθεί ως συνδεδεμένη υπηρεσία στο Studio. Για να δημιουργήσετε έναν χώρο εργασίας μεταβείτε στο στοιχείο Δημιουργία χώρου εργασίας Synapse.
  • Μια δεξαμενή Apache Spark στο συνδεδεμένο Azure Synapse workspace με την έκδοση 3.3 Apache Spark που χρησιμοποιεί αυτή τη συνιστώμενη διαμόρφωση Spark Pool. Για πληροφορίες σχετικά με τον τρόπο δημιουργίας χώρου συγκέντρωσης Spark, μεταβείτε στο θέμα Δημιουργία νέου χώρου συγκέντρωσης Apache Spark.
  • Η απαίτηση ελάχιστης έκδοσης Microsoft Dynamics 365 για χρήση αυτής της δυνατότητας είναι 9.2.22082. Περισσότερες πληροφορίες: Συμμετοχή σε ενημερώσεις πρώιμης πρόσβασης

Αυτή η ρύθμιση παραμέτρων μπορεί να θεωρηθεί ως βήμα εκκίνησης για υποθέσεις μέσης χρήσης.

  • Μέγεθος κόμβου: μικρό (4 vCores / 32 GB)
  • Αυτόματη προσαρμογή: Ενεργοποιήθηκε
  • Αριθμός κόμβων: 5 έως 10
  • Αυτόματη διακοπή: Ενεργοποιήθηκε
  • Αριθμός λεπτών αδράνειας: 5
  • Apache Spark: 3.4
  • Δυναμική εκχώρηση εκτελεστών: Ενεργοποιημένο
  • Προεπιλεγμένος αριθμός εκτελεστών: 1 έως 9

Σημαντικό

Χρησιμοποιήστε το Spark pool αποκλειστικά για τη λειτουργία μετατροπής Delta Lake με Synapse Link για το Dataverse. Για βέλτιστη αξιοπιστία και επιδόσεις, αποφύγετε την εκτέλεση άλλων εργασιών Spark χρησιμοποιώντας τον ίδιο χώρο συγκέντρωσης spark.

Σύνδεση Dataverse σε χώρο εργασίας Synapse και εξαγωγή δεδομένων σε μορφή Delta Lake

  1. Συνδεθείτε στο Power Apps και επιλέξτε το περιβάλλον που θέλετε.

  2. Στο αριστερό παράθυρο περιήγησης, επιλέξτε Azure Synapse Link. Εάν το στοιχείο δεν βρίσκεται στο πλαϊνό τμήμα του πίνακα, επιλέξτε ...Περισσότερα και, στη συνέχεια, επιλέξτε το στοιχείο που θέλετε.

  3. Στη γραμμή εντολών, επιλέξτε + Νέα σύνδεση

  4. Επιλέξτε Σύνδεση στο χώρο εργασίας σας Azure Synapse Analytics, και στη συνέχεια, επιλέξτε Συνδρομή, Ομάδα πόρων και Όνομα χώρου εργασίας.

  5. Επιλέξτε Χρήση χώρου συγκέντρωσης Spark για επεξεργασία και, στη συνέχεια, επιλέξτε το προδημιουργημένο χώρο συγκέντρωσης Spark και τον λογαριασμό χώρου αποθήκευσης. Ρύθμιση παραμέτρων Azure Synapse Link for Dataverse που περιλαμβάνει χώρο συγκέντρωσης spark.

  6. Επιλέξτε Επόμενο.

  7. Προσθέστε τους πίνακες που θέλετε να εξαγάγετε και, στη συνέχεια, επιλέξτε Σύνθετες ρυθμίσεις.

  8. Προαιρετικά, επιλέξτε Εμφάνιση σύνθετων ρυθμίσεων και εισαγάγετε το χρονικό διάστημα, σε λεπτά. για τη συχνότητα καταγραφής των τμηματικών ενημερώσεων.

  9. Επιλέξτε Αποθήκευση.

  1. Επιλέξτε το Azure Synapse Link που θέλετε και, έπειτα, επιλέξτε Μετάβαση στον χώρο εργασίας του Azure Synapse Analytics στη γραμμή εντολών.
  2. Επιλέξτε Παρακολούθηση>Εφαρμογές Apache Spark. Περισσότερες πληροφορίες: Χρησιμοποιήστε το Synapse Studio για να παρακολουθείτε τις εφαρμογές Apache Spark

Προβάλετε τα δεδομένα σας από τον χώρο εργασίας Synapse

  1. Επιλέξτε το Azure Synapse Link που θέλετε και, έπειτα, επιλέξτε Μετάβαση στον χώρο εργασίας του Azure Synapse Analytics στη γραμμή εντολών.
  2. Αναπτύξτε τις βάσεις δεδομένων της λίμνης στο αριστερό παράθυρο, επιλέξτε dataverse-environmentNameorganizationUniqueName και, στη συνέχεια, αναπτύξτε τους πίνακες. Όλοι οι Πίνακες Parquet παρατίθενται και είναι διαθέσιμοι για ανάλυση με τη σύμβαση ονομασίας DataverseTableName(Non_partitioned Table).

Σημείωμα

Μην χρησιμοποιείτε πίνακες με τoyw κανόνες ονοματοθεσίας _partitioned. Όταν επιλέγετε ως μορφή το Delta parquet, οι πίνακες με τους κανόνες ονοματοθεσίας _partition χρησιμοποιούνται ως πίνακες προεργασίας και καταργούνται μετά τη χρήση τους από το σύστημα.

Προβολή των δεδομένων σας από το Azure Data Lake Storage Gen2

  1. Επιλέξτε το Azure Synapse Link που θέλετε και, στη συνέχεια, επιλέξτε Μετάβαση στη λίμνη δεδομένων Azure στη γραμμή εντολών.
  2. Επιλέξτε το Περιέκτες στο Χώρος αποθήκευσης δεδομένων.
  3. Επιλέξτε *dataverse- *environmentName-organizationUniqueName. Όλα τα αρχεία parquet αποθηκεύονται στον φάκελο deltalake.

Επιτόπια αναβάθμιση σε Apache Spark 3.4 με Delta Lake 2.4

Προαπαιτούμενα

  • Πρέπει να έχετε ένα υπάρχον Azure Synapse Link for Dataverse Delta Lake που εκτελείται με μια έκδοση 3.3 του Synapse Spark.
  • Πρέπει να δημιουργήσετε έναν νέο χώρο συγκέντρωσης Synapse Spark με το Spark έκδοση 3.4, χρησιμοποιώντας την ίδια ή υψηλότερη διαμόρφωση υλικού κόμβων στον ίδιο χώρο εργασίας του Synapse. Για πληροφορίες σχετικά με τον τρόπο δημιουργίας χώρου συγκέντρωσης Spark, μεταβείτε στο θέμα Δημιουργία νέου χώρου συγκέντρωσης Apache Spark. Αυτός ο χώρος συγκέντρωσης Spark θα πρέπει να δημιουργηθεί ανεξάρτητα από τον τρέχοντα χώρο 3.3.

Επιτόπια αναβάθμιση σε Spark 3.4:

  1. Συνδεθείτε στο Power Apps και επιλέξτε το προτιμώμενο περιβάλλον.
  2. Στο αριστερό παράθυρο περιήγησης, επιλέξτε Azure Synapse Link. Εάν το στοιχείο δεν βρίσκεται στο αριστερό τμήμα παραθύρου περιήγησης, επιλέξτε ...Περισσότερα και, στη συνέχεια, επιλέξτε το στοιχείο που θέλετε.
  3. Ανοίξτε το προφίλ Azure Synapse Link και, στη συνέχεια, επιλέξτε Αναβάθμιση σε Apache Spark 3.4 με το Delta Lake 2.4.
  4. Επιλέξτε τον διαθέσιμο χώρο συγκέντρωσης Spark από τη λίστα και μετά επιλέξτε Ενημέρωση.

Σημείωμα

Η αναβάθμιση του χώρου συγκέντρωσης Spark πραγματοποιείται μόνο όταν ενεργοποιηθεί μια νέα εργασία μετατροπής Spark Delta Lake. Βεβαιωθείτε ότι έχετε τουλάχιστον μία αλλαγή δεδομένων μετά την επιλογή Ενημέρωση.

Δείτε επίσης

Τι είναι το Azure Synapse Link for Dataverse;