Ανίχνευση αλλαγών χωρίς επίβλεψη με χρήση παραθύρων αναφοράς, με παράδειγμα Python
Σε ένα προηγούμενο άρθρο, εξερευνήσαμε τα βασικά του concept drift. Η μετατόπιση εννοιών συμβαίνει όταν αλλάζει η κατανομή ενός συνόλου δεδομένων.
Αυτή η ανάρτηση συνεχίζει να εξερευνά αυτό το θέμα. Εδώ, θα μάθετε πώς να ανιχνεύετε την εννοιολογική μετατόπιση σε προβλήματα όπου δεν έχετε πρόσβαση σε ετικέτες. Αυτή η εργασία είναι προκλητική γιατί χωρίς ετικέτες δεν μπορούμε να αξιολογήσουμε την απόδοση των μοντέλων.
Ας βουτήξουμε.
Τα σύνολα δεδομένων που εξελίσσονται με την πάροδο του χρόνου επιδέχονται μετατόπιση εννοιών. Οι αλλαγές στις διανομές μπορούν να υπονομεύσουν τα μοντέλα και την ακρίβεια των προβλέψεών τους. Επομένως, είναι σημαντικό να εντοπίζετε και να προσαρμόζεστε σε αυτές τις αλλαγές για να διατηρείτε τα μοντέλα ενημερωμένα.
Οι περισσότερες προσεγγίσεις ανίχνευσης αλλαγών βασίζονται στην παρακολούθηση του σφάλματος του μοντέλου. Η ιδέα είναι να ενεργοποιηθεί ένας συναγερμός όταν αυτό το σφάλμα αυξάνεται σημαντικά. Στη συνέχεια, ενεργοποιείται κάποιος μηχανισμός προσαρμογής, όπως η επανεκπαίδευση του μοντέλου.
Στο προηγούμενο άρθρο, υποστηρίξαμε ότι η πρόσβαση σε ετικέτες μπορεί να είναι δύσκολη σε ορισμένες περιπτώσεις. Τα παραδείγματα εμφανίζονται σε πολλούς τομείς, όπως ο εντοπισμός απάτης ή η αξιολόγηση πιστωτικού κινδύνου. Στο τελευταίο, ο χρόνος που χρειάζεται για να αθετήσει ένα άτομο (και να δώσει μια ετικέτα στην αξιολόγησή του) μπορεί να διαρκέσει έως και αρκετά χρόνια.
Σε αυτές τις περιπτώσεις, πρέπει να εντοπίσετε αλλαγές χρησιμοποιώντας προσεγγίσεις που δεν εξαρτώνται από την απόδοση.
Γενικά, έχετε δύο επιλογές για να εντοπίσετε αλλαγές χωρίς ετικέτες:
- Παρακολουθήστε τις προβλέψεις του μοντέλου.
- Παρακολούθηση των δεδομένων εισόδου (επεξηγηματικές μεταβλητές).
Και στις δύο περιπτώσεις, η αλλαγή ανιχνεύεται όταν η κατανομή αλλάζει σημαντικά.
Πώς ακριβώς λειτουργεί αυτό;
Η ανίχνευση αλλαγών χωρίς ετικέτες γίνεται με σύγκριση δύο δειγμάτων δεδομένων. Ένα δείγμα αντιπροσωπεύει τα πιο πρόσφατα δεδομένα, τα οποία αναφέρονται επίσης ως παράθυρο ανίχνευσης. Το άλλο περιέχει δεδομένα από την αρχική διανομή (παράθυρο αναφοράς).
Έτσι, η διαδικασία ανίχνευσης χωρίζεται σε δύο μέρη:
- Κατασκευή των δύο δειγμάτων