Κοινή χρήση μέσω


Τεχνικές μείωσης δεδομένων για τη μοντελοποίηση εισαγωγής

Αυτό το άρθρο αφορά δημιουργούς μοντέλων δεδομένων του Power BI Desktop που αναπτύσσουν μοντέλα εισαγωγής. Περιγράφει διαφορετικές τεχνικές που βοηθούν στη μείωση των δεδομένων που φορτώνονται σε μοντέλα εισαγωγής.

Τα μοντέλα εισαγωγής φορτώνονται με δεδομένα που συμπιέζονται και βελτιστοποιούνται και, στη συνέχεια, αποθηκεύονται στον δίσκο από τη μηχανή αποθήκευσης VertiPaq. Όταν φορτωθούν δεδομένα προέλευσης στη μνήμη, είναι πιθανό να δείτε συμπίεση 10x και επομένως είναι λογικό να αναμένετε ότι δεδομένα προέλευσης 10 GB μπορούν να συμπιεστεί σε μέγεθος περίπου 1 GB. Επιπλέον, όταν διατηρείται στον δίσκο, μπορεί να επιτευχθεί επιπλέον 20% μείωση.

Παρά τις αποδόσεις που επιτυγχάνονται από τη μηχανή αποθήκευσης VertiPaq, είναι σημαντικό να προσπαθήσετε να ελαχιστοποιήσετε τα δεδομένα που θα φορτωθούν στα μοντέλα σας. Είναι ιδιαίτερα αληθές για μεγάλα μοντέλα ή μοντέλα που αναμένετε ότι θα μεγαλώσουν με τον χρόνο. Τέσσερις σημαντικοί λόγοι περιλαμβάνουν τα εξής:

  • Τα μεγαλύτερα μεγέθη μοντέλου ενδέχεται να μην υποστηρίζονται από τους εκχωρημένους πόρους σας. Οι κοινόχρηστοι εκχωρημένοι πόροι μπορούν να φιλοξενήσουν μοντέλα έως και 1 GB σε μέγεθος, ενώ οι Premium εκχωρημένοι πόροι μπορούν να φιλοξενήσουν μεγαλύτερα μοντέλα ανάλογα με το SKU. Για περισσότερες πληροφορίες, διαβάστε το άρθρο Υποστήριξη Power BI Premium για μεγάλα σημασιολογικά μοντέλα .
  • Μικρότερα μεγέθη μοντέλου μειώνουν τον ισχυρισμό για εκχωρημένους πόρους, συγκεκριμένα για τη μνήμη. Επιτρέπει την ταυτόχρονη φόρτωση περισσότερων μοντέλων για μεγαλύτερες χρονικές περιόδους, με αποτέλεσμα χαμηλότερους ρυθμούς κατάργησης.
  • Τα μικρότερα μοντέλα επιτυγχάνουν ταχύτερη ανανέωση δεδομένων, με αποτέλεσμα χαμηλότερες αναφορές λανθάνοντος χρόνου, υψηλότερη ταχύτητα ανανέωσης μοντέλου σημασιολογίας και λιγότερη πίεση στους πόρους συστήματος προέλευσης και τους εκχωρημένους πόρους.
  • Μικρότερο πλήθος γραμμών πίνακα μπορεί να οδηγήσει σε ταχύτερες αξιολογήσεις υπολογισμού, το οποίο μπορεί να προσφέρει καλύτερες συνολικές επιδόσεις ερωτημάτων.

Σημαντικό

Κατά καιρούς αυτό το άρθρο αναφέρεται στο Power BI Premium ή στις συνδρομές εκχωρημένων πόρων του (P SKU). Να γνωρίζετε ότι η Microsoft ενοποιεί επί του παρόντος επιλογές αγοράς και αποσύρει το Power BI Premium ανά SKU εκχωρημένων πόρων. Οι νέοι και υπάρχοντες πελάτες θα πρέπει να εξετάσουν το ενδεχόμενο αγοράς συνδρομών εκχωρημένων πόρων Fabric (F SKU).

Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Σημαντικές ενημερώσεις που αφορούν την παραχώρηση αδειών χρήσης Power BI Premium και συνήθεις ερωτήσεις για το Power BI Premium.

Υπάρχουν οκτώ διαφορετικές τεχνικές μείωσης δεδομένων που εξετάζονται σε αυτό το άρθρο. Αυτές οι τεχνικές περιλαμβάνουν:

Κατάργηση περιττών στηλών

Οι στήλες πίνακα μοντέλου εξυπηρετούν δύο κύριους σκοπούς:

  • Αναφορές, για να επιτευχθεί σχεδίαση αναφορών που φιλτράρουν, ομαδοποιούν και συνοψίζουν δεδομένα μοντέλου κατάλληλα
  • Δομή μοντέλου, υποστηρίζοντας σχέσεις μοντέλων, υπολογισμούς μοντέλων, ρόλους ασφαλείας, ακόμη και μορφοποίηση χρώματος δεδομένων

Οι στήλες που δεν εξυπηρετούν αυτούς τους σκοπούς μπορούν πιθανώς να καταργηθούν. Η κατάργηση στηλών αναφέρεται ως κατακόρυφο φιλτράρισμα.

Συνιστούμε να σχεδιάσετε μοντέλα με τον ακριβή αριθμό στηλών με βάση τις γνωστές απαιτήσεις αναφοράς. Οι απαιτήσεις σας μπορεί να αλλάξουν με την πάροδο του χρόνου, να θυμάστε όμως ότι είναι ευκολότερο να προσθέσετε στήλες αργότερα από το να τις καταργήσετε. Η κατάργηση στηλών μπορεί να προκαλέσει καταστροφή των αναφορών ή της δομής μοντέλου.

Κατάργηση περιττών γραμμών

Οι πίνακες μοντέλων θα πρέπει να φορτώνονται με όσο το δυνατόν λιγότερες γραμμές. Μπορεί να επιτευχθεί φορτώνοντας φιλτραροποιημένα σύνολα γραμμών σε πίνακες μοντέλων για δύο διαφορετικούς λόγους: για φιλτράρισμα κατά οντότητα ή κατά ώρα. Η κατάργηση γραμμών αναφέρεται ως οριζόντιο φιλτράρισμα.

Το φιλτράρισμα κατά οντότητα περιλαμβάνει τη φόρτωση ενός υποσυνόλου δεδομένων προέλευσης στο μοντέλο. Για παράδειγμα, αντί να φορτώσετε στοιχεία πωλήσεων για όλες τις περιοχές πωλήσεων, φορτώνετε μόνο στοιχεία για μία μόνο περιοχή. Αυτή η προσέγγιση σχεδίασης θα έχει ως αποτέλεσμα πολλά μικρότερα μοντέλα και μπορεί επίσης να καταργήσει την ανάγκη ορισμού ασφάλειας σε επίπεδο γραμμών (αλλά θα απαιτεί την εκχώρηση συγκεκριμένων δικαιωμάτων σημασιολογικών μοντέλων στην υπηρεσία Power BI και τη δημιουργία "διπλότυπων" αναφορών που συνδέονται σε κάθε μοντέλο σημασιολογίας). Μπορείτε να αξιοποιήσετε τη χρήση παραμέτρων Power Query και αρχείων προτύπου Power BI για να απλοποιήσετε τη διαχείριση και δημοσίευση. Για περισσότερες πληροφορίες, διαβάστε την καταχώρηση ιστολογίου Αναλυτική ανάλυση των παραμέτρων ερωτήματος και των προτύπων Power BI

Το φιλτράρισμα κατά ώρα αφορά τον περιορισμό της ποσότητας ιστορικού δεδομένων που φορτώνονται σε πίνακες στοιχείων (και τον περιορισμό των γραμμών ημερομηνίας που φορτώνονται στους πίνακες ημερομηνιών μοντέλου). Προτείνουμε να μην φορτώνετε αυτόματα όλο το διαθέσιμο ιστορικό, εκτός εάν αποτελεί γνωστή απαίτηση αναφοράς. Είναι χρήσιμο να κατανοήσετε ότι τα φίλτρα Power Query που βασίζονται στον χρόνο μπορούν να παραμετροποιηθούν, ακόμη και να οριστούν σε σχετικές χρονικές περιόδους (σχετικές με την ημερομηνία ανανέωσης, για παράδειγμα, τα τελευταία πέντε έτη). Επίσης, λάβετε υπόψη ότι αναδρομικές αλλαγές στα φίλτρα χρόνου δεν θα καταστρέψουν τις αναφορές. αυτό θα έχει ως αποτέλεσμα απλώς μικρότερο (ή μεγαλύτερο) ιστορικό δεδομένων διαθέσιμο σε αναφορές.

Ομαδοποίηση κατά και σύνοψη

Ίσως η πιο αποτελεσματική τεχνική για τη μείωση του μεγέθους ενός μοντέλου είναι η φόρτωση δεδομένων που έχουν συνοψιστεί εκ των προτέρων. Αυτή η τεχνική μπορεί να χρησιμοποιηθεί για την αύξηση της λεπτομέρειας των πινάκων στοιχείων. Υπάρχει μια διακριτή ανταλλαγή, ωστόσο, με αποτέλεσμα την απώλεια λεπτομερειών.

Για παράδειγμα, ένας πίνακας δεδομένων πωλήσεων προέλευσης αποθηκεύει μία γραμμή ανά γραμμή παραγγελίας. Μπορείτε να πετύχετε σημαντική μείωση δεδομένων συνοψίζοντας όλα τα μετρικά πωλήσεων, ομαδοποιώντας κατά ημερομηνία, πελάτη και προϊόν. Εξετάστε τότε ότι μια ακόμα μεγαλύτερη μείωση δεδομένων μπορεί να επιτευχθεί με ομαδοποίηση κατά ημερομηνία σε επίπεδο μήνα. Μπορεί να επιτύχει μια πιθανή μείωση κατά 99% του μεγέθους μοντέλου, αλλά η αναφορά σε επίπεδο ημέρας ή σε επίπεδο μεμονωμένης παραγγελίας δεν είναι πλέον εφικτή. Η απόφαση σύνοψης των δεδομένων στοιχείων περιλαμβάνει πάντα ανταλλαγές. Η ανταλλαγή μπορεί να μετριαστεί με μια σχεδίαση μεικτών μοντέλων και αυτή η επιλογή περιγράφεται στην τεχνική Μετάβαση σε λειτουργία "Μεικτό" .

Βελτιστοποίηση τύπων δεδομένων στήλης

Η μηχανή αποθήκευσης VertiPaq χρησιμοποιεί ξεχωριστές δομές δεδομένων για κάθε στήλη. Βάσει σχεδίασης, αυτές οι δομές δεδομένων επιτυγχάνουν τις υψηλότερες βελτιστοποιήσεις για αριθμητικά δεδομένα στηλών, που χρησιμοποιούν κωδικοποίηση τιμών. Το κείμενο και άλλα μη αριθμητικά δεδομένα, ωστόσο, χρησιμοποιούν κωδικοποίηση κατακερματίσματος. Απαιτεί από τη μηχανή αποθήκευσης να εκχωρήσει ένα αριθμητικό αναγνωριστικό σε κάθε μοναδική τιμή κειμένου που περιέχεται στη στήλη. Είναι τότε το αριθμητικό αναγνωριστικό που αποθηκεύεται στη δομή δεδομένων, απαιτώντας αναζήτηση κατακερματίσματος κατά την αποθήκευση και την υποβολή ερωτημάτων.

Σε ορισμένες συγκεκριμένες παρουσίες, μπορείτε να μετατρέψετε δεδομένα κειμένου προέλευσης σε αριθμητικές τιμές. Για παράδειγμα, ένας αριθμός παραγγελίας πωλήσεων μπορεί να έχει διαρκώς ως πρόθεμα μια τιμή κειμένου (για παράδειγμα "SO123456"). Το πρόθεμα μπορεί να καταργηθεί και η τιμή αριθμού παραγγελίας να μετατραπεί σε ακέραιο αριθμό. Για μεγάλους πίνακες, αυτό μπορεί να οδηγήσει σε σημαντική μείωση δεδομένων, ιδιαίτερα όταν η στήλη περιέχει μοναδικές ή υψηλής πληθικότητας τιμές.

Σε αυτό το παράδειγμα, προτείνουμε να ορίσετε την ιδιότητα Προεπιλεγμένη σύνοψη στήλης σε "Χωρίς σύνοψη". Βοηθά να ελαχιστοποιήσετε την κατάλληλη σύνοψη των τιμών αριθμού παραγγελιών.

Προτίμηση για προσαρμοσμένες στήλες

Η μηχανή αποθήκευσης VertiPaq αποθηκεύει υπολογιζόμενες στήλες μοντέλου (ορίζονται στο DAX) όπως ακριβώς και οι κανονικές στήλες που προέρχονται από το Power Query. Ωστόσο, οι δομές δεδομένων αποθηκεύονται λίγο διαφορετικά και συνήθως επιτυγχάνουν λιγότερο αποδοτική συμπίεση. Επίσης, δημιουργούνται όταν φορτώνονται όλοι οι πίνακες Power Query, το οποίο μπορεί να οδηγήσει σε εκτεταμένους χρόνους ανανέωσης δεδομένων. Επομένως, είναι λιγότερο αποτελεσματικό να προσθέτετε στήλες πίνακα ως υπολογιζόμενες στήλες σε σχέση με υπολογιζόμενες στήλες Power Query (ορίζονται στην M).

Η προτίμηση θα πρέπει να είναι η δημιουργία προσαρμοσμένων στηλών στο Power Query. Όταν η προέλευση είναι μια βάση δεδομένων, μπορείτε να επιτύχετε μεγαλύτερη αποδοτικότητα φόρτωσης με δύο τρόπους. Ο υπολογισμός μπορεί να οριστεί στην πρόταση SQL (χρησιμοποιώντας τη γλώσσα εγγενούς ερωτήματος της υπηρεσίας παροχής) ή μπορεί να υλοποιηθεί ως στήλη στην προέλευση δεδομένων.

Ωστόσο, σε ορισμένες παρουσίες, οι υπολογιζόμενες στήλες μοντέλου μπορεί να είναι η καλύτερη επιλογή. Μπορεί να συμβαίνει όταν ο τύπος αφορά την αξιολόγηση μετρήσεων ή όταν απαιτεί συγκεκριμένες λειτουργίες μοντελοποίησης που υποστηρίζεται μόνο σε συναρτήσεις DAX. Για πληροφορίες σε ένα τέτοιο παράδειγμα, ανατρέξτε στο άρθρο Κατανόηση συναρτήσεων για ιεραρχίες γονικού-θυγατρικού στοιχείου στο DAX .

Απενεργοποίηση φόρτωσης ερωτημάτων Power Query

Τα ερωτήματα Power Query που προορίζονται για την υποστήριξη της ενοποίησης δεδομένων με άλλα ερωτήματα δεν πρέπει να φορτώνονται στο μοντέλο. Για να αποφύγετε τη φόρτωση του ερωτήματος στο μοντέλο, φροντίστε να διασφαλίσετε ότι θα απενεργοποιήσετε τη φόρτωση ερωτημάτων σε αυτές τις παρουσίες.

Στιγμιότυπο οθόνης του Power Query που εμφανίζει την επιλογή

Απενεργοποίηση αυτόματης ημερομηνίας/ώρας

Το Power BI Desktop περιλαμβάνει μια επιλογή που ονομάζεται Αυτόματη ημερομηνία/ώρα. Όταν ενεργοποιηθεί, δημιουργεί έναν κρυφό πίνακα αυτόματης ημερομηνίας/ώρας για στήλες ημερομηνιών για την υποστήριξη των συντακτών αναφορών κατά τη ρύθμιση παραμέτρων φίλτρων, την ομαδοποίηση και τη διερεύνηση ενεργειών για ημερολογιακές χρονικές περιόδους. Οι κρυφοί πίνακες είναι στην πραγματικότητα υπολογιζόμενοι πίνακες που θα αυξήσουν το μέγεθος του μοντέλου. Για οδηγίες σχετικά με τη χρήση αυτής της επιλογής, ανατρέξτε στο άρθρο Οδηγίες αυτόματης ημερομηνίας/ώρας στο Power BI Desktop .

Μετάβαση σε λειτουργία "Μεικτό"

Στο Power BI Desktop, μια σχεδίαση μεικτής λειτουργίας παράγει ένα Σύνθετο μοντέλο. Ουσιαστικά, σας επιτρέπει να προσδιορίσετε τη λειτουργία αποθήκευσης για κάθε πίνακα. Επομένως, κάθε πίνακας μπορεί να έχει την ιδιότητά του Λειτουργία αποθήκευσης ορισμένη ως Εισαγωγή ή DirectQuery (η διπλή είναι μια άλλη επιλογή).

Μια αποτελεσματική τεχνική για να μειώσετε το μέγεθος μοντέλου είναι να ορίσετε την ιδιότητα Λειτουργία χώρου αποθήκευσης για μεγαλύτερους πίνακες τύπου γεγονότος σε DirectQuery. Λάβετε υπόψη ότι αυτή η προσέγγιση σχεδίασης μπορεί να λειτουργεί καλά σε συνδυασμό με την τεχνική Ομαδοποίηση κατά και σύνοψη που παρουσιάστηκε νωρίτερα. Για παράδειγμα, συνοπτικά δεδομένα πωλήσεων μπορούν να χρησιμοποιηθούν για την επίτευξη υψηλής απόδοσης αναφοράς "σύνοψης". Μια σελίδα άντλησης μπορεί να εμφανίσει λεπτομερείς πωλήσεις για συγκεκριμένο (και περιορισμένο) περιβάλλον φίλτρου, εμφανίζοντας όλες τις παραγγελίες πωλήσεων στο περιβάλλον. Σε αυτό το παράδειγμα, η σελίδα άντλησης θα περιλαμβάνει απεικονίσεις που βασίζονται σε έναν πίνακα DirectQuery για την ανάκτηση των δεδομένων παραγγελιών πωλήσεων.

Υπάρχουν, ωστόσο, πολλές επιπτώσεις στην ασφάλεια και την απόδοση που σχετίζονται με τα Σύνθετα μοντέλα. Για περισσότερες πληροφορίες, διαβάστε το άρθρο Χρήση σύνθετων μοντέλων στο Power BI Desktop .

Για περισσότερες πληροφορίες σχετικά με τη σχεδίαση μοντέλου εισαγωγής Power BI, ανατρέξτε στα παρακάτω άρθρα: