Εντοπισμός πολλαπλών ανωμαλιών στο Microsoft Fabric - επισκόπηση
Τι είναι ο εντοπισμός πολλαπλών ανωμαλιών για χρονολογική σειρά; Ο εντοπισμός μη υπεκφυγής ανωμαλίας, ο οποίος υλοποιείται από τη συνάρτηση KQL series_decompose_anomalies(), σας επιτρέπει να παρακολουθείτε και να εντοπίζετε ανωμαλίες στην κατανομή μιας μεμονωμένης μεταβλητής με την πάροδο του χρόνου. Αντίθετα, ο εντοπισμός πολυμεταβλητών ανωμαλιών είναι μια μέθοδος ανίχνευσης ανωμαλιών στην κοινή κατανομή πολλών μεταβλητών με την πάροδο του χρόνου. Αυτή η μέθοδος είναι χρήσιμη όταν συσχετίζονται οι μεταβλητές, συνεπώς ο συνδυασμός των τιμών τους σε συγκεκριμένο χρόνο μπορεί να είναι ανώμαλος, ενώ η τιμή κάθε μεταβλητής από μόνη της είναι κανονική. Ο εντοπισμός πολλαπλών ανωμαλιών μπορεί να χρησιμοποιηθεί σε διάφορες εφαρμογές, όπως η παρακολούθηση της εύρυθμης λειτουργίας σύνθετων συστημάτων IoT, η ανίχνευση απάτης σε οικονομικές συναλλαγές και ο εντοπισμός ασυνήθιστων μοτίβων στην κυκλοφορία δικτύου.
Για παράδειγμα, εξετάστε ένα σύστημα που παρακολουθεί την απόδοση ενός στόλου οχημάτων. Το σύστημα συλλέγει δεδομένα σε διάφορα μετρικά, όπως η ταχύτητα, η κατανάλωση καυσίμου και η θερμοκρασία του κινητήρα. Αναλύοντας αυτά τα μετρικά μαζί, το σύστημα μπορεί να ανιχνεύσει ανωμαλίες που δεν θα ήταν εμφανείς αναλύοντας μεμονωμένα κάθε μετρικό. Από μόνη της, η αύξηση της κατανάλωσης καυσίμων μπορεί να οφείλεται σε διάφορους αποδεκτούς λόγους. Ωστόσο, μια ξαφνική αύξηση της κατανάλωσης καυσίμου σε συνδυασμό με τη μείωση της θερμοκρασίας του κινητήρα θα μπορούσε να υποδείξει ένα πρόβλημα με τον κινητήρα, ακόμη και αν κάθε μετρικό από μόνο του είναι εντός κανονικής εμβέλειας.
Πώς μπορείτε να εντοπίσετε πολυμεταβλημένες ανωμαλίες στο Microsoft Fabric;
Ο εντοπισμός πολυμεταβλητών ανωμαλιών στο Fabric εκμεταλλεύεται τους ισχυρούς κινητήρες Spark και Eventhouse πάνω από ένα κοινόχρηστο επίπεδο μόνιμου χώρου αποθήκευσης. Τα αρχικά δεδομένα μπορούν να προσαχθούν σε μια Αποθήκη συμβάντων και να εκτεθούν στο OneLake. Το μοντέλο εντοπισμού ανωμαλιών μπορεί τότε να εκπαιδευτεί χρησιμοποιώντας τον μηχανισμό Spark και οι προβλέψεις για ανωμαλίες στα νέα δεδομένα ροής μπορούν να γίνουν σε πραγματικό χρόνο χρησιμοποιώντας τον μηχανισμό Eventhouse. Η διασύνδεση αυτών των κινητήρων που μπορούν να επεξεργαστούν τα ίδια δεδομένα στον κοινόχρηστο χώρο αποθήκευσης επιτρέπει μια απρόσκοπτη ροή δεδομένων από την πρόσληψη δεδομένων, μέσω εκπαίδευσης μοντέλου, στην πρόβλεψη ανωμαλιών. Αυτή η ροή εργασιών είναι απλή και ισχυρή για την παρακολούθηση και την ανίχνευση ανωμαλιών σε πραγματικό χρόνο σε σύνθετα συστήματα.
Στοιχεία λύσης
Αυτή η λύση βασίζεται στα ακόλουθα στοιχεία:
- Eventhouse: Τα δεδομένα αρχικά προσλαμβάνεται σε ένα Eventhouse, το οποίο είναι ένας μηχανισμός επεξεργασίας δεδομένων σε πραγματικό χρόνο που μπορεί να χειριστεί ροές δεδομένων υψηλής ταχύτητας.
- OneLake: Τα δεδομένα από την Eventhouse εκτίθενται στο OneLake, το οποίο είναι ένα κοινόχρηστο επίπεδο μόνιμου χώρου αποθήκευσης που παρέχει μια ενοποιημένη προβολή των δεδομένων.
- Πακέτο εντοπισμού πολλαπλών ανωμαλιών: η λύση χρησιμοποιεί το πακέτο python προγράμματος εντοπισμού ανωμαλιών χρονολογικής σειράς, εφαρμόζοντας έναν προηγμένο αλγόριθμο που βασίζεται σε ένα δίκτυο προσοχής γραφήματος (GAT) που καταγράφει τις συσχετίσεις μεταξύ διαφορετικών χρονικών σειρών και εντοπίζει ανωμαλίες σε πραγματικό χρόνο. Το μοντέλο GAT εκπαιδεύεται σε ιστορικά δεδομένα για να μάθει τις σχέσεις μεταξύ διαφορετικών χρονικών σειρών. Το εκπαιδευμένο μοντέλο μπορεί να εφαρμοστεί για την πρόβλεψη ανωμαλιών σε νέα δεδομένα ροής. Σημειώστε ότι αυτός ο αλγόριθμος είναι αυτός που χρησιμοποιείται στην υπηρεσία εντοπισμού ανωμαλιών AI που αποσύρεται. Για περισσότερες πληροφορίες σχετικά με τον αλγόριθμο, ανατρέξτε στο ιστολόγιο και το έγγραφο.
- Spark Notebook: χρησιμοποιείται για την εκπαίδευση χωρίς σύνδεση του μοντέλου εντοπισμού ανωμαλιών σε δεδομένα ιστορικού και την αποθήκευση του εκπαιδευμένου μοντέλου στο μητρώο μοντέλων MLflow του Fabric
- Σύνολο ερωτημάτων KQL: χρησιμοποιείται για πρόβλεψη σε πραγματικό χρόνο ανωμαλιών σε εισερχόμενα δεδομένα.