Πώς μπορώ να εξηγήσω τη διαφορά μεταξύ του RPCA και του PCA;


Απάντηση 1:

Επεξεργασία: Doh, μόλις συνειδητοποίησα ότι μπορείς να ρωτάς για το Robust-PCA και όχι για την κύρια καταστολή των συνιστωσών (aka regression-PCA). Για ό, τι αξίζει, εδώ είναι μια απάντηση στο τελευταίο.

Μερικές φορές κατά τη διάρκεια της παλινδρόμησης, οι ομάδες μεταβλητών εισόδου (συνεταίροι) θα είναι συγραμμικές (βλ. Μια άλλη ερώτηση σχετικά με την πολυκεντρικότητα). Αυτό σημαίνει ότι εισροές που είναι πολύ προγνωστικές μεταξύ τους υποδηλώνουν έναν τύπο πλεονασμού από την άποψη της εξόδου: αν μπορείτε να προβλέψετε

yy

καλά με

xx

, δεν χρειάζεστε άλλο αντίγραφο

xx

.

Δυστυχώς, η παλινδρόμηση OLS το βλέπει αυτό και προσπαθεί να αντισταθμίσει αναθέτοντας παρόμοια ευθύνη στις κολλινευτικές εισροές. Στο παραπάνω παράδειγμα, σκεφτείτε πόσα διαφορετικά επίπεδα υπάρχουν που είναι σχεδόν βέλτιστα (με την ελάχιστη τετραγωνική έννοια) ...

Άπειρο, σωστά; Κάθε αεροπλάνο που διέρχεται από τα σημεία, ανεξάρτητα από την περιστροφή γύρω από τα πράσινα σημεία: Φανταστείτε ένα είδος άξονα αγκυρωμένο μέσα του αέρα που περνάει από τα πράσινα σημεία και στη συνέχεια το κόκκινο επίπεδο περιστρέφεται πάνω του.

Για να χειροτερέψουν τα πράγματα, διαταράσσοντας τα δεδομένα ένα μικρό κομμάτι, τα τελικά βάρη παλινδρόμησης, που ουσιαστικά ελέγχουν την κλίση του επιπέδου, μπορεί να είναι πολύ διαφορετικά. Αυτό δείχνει ότι το μοντέλο είναι ασταθές.

Λοιπόν, τι είναι ένας τρόπος με βάση την αρχή της συγχώνευσης των μεταβλητών εισόδου που συσχετίζονται; Λοιπόν, εδώ πρόκειται να κάνει η Regression-PCA:

Κατ 'αρχάς, θα κάνει το PCA στις εισόδους (τα μπλε σημεία), δηλαδή βρει μια μπλε γραμμή στο επίπεδο XZ για να προβάλει τα μπλε σημεία (έτσι ώστε η συνολική απόσταση προβολής να ελαχιστοποιηθεί). Αυτή η γραμμή λειτουργεί τώρα ως νέος άξονας - καλέστε την

bb

,

και το αρχικό πρόβλημα παλινδρόμησης λύεται τώρα στο πλαίσιο αναφοράς του

byb-y

, μία γραμμική παλινδρόμηση απλής μεταβλητής.

Έτσι, με τον τρόπο, αφήνουμε το PCA να βρει αυτές τις ομάδες παρόμοιων μεταβλητών, αντί να το αφήνει στο OLS με τον εγγενή κίνδυνο αστάθειας που παρουσιάζεται παραπάνω.

Τέλος, επανασχεδιάστε την παλινδρόμηση στο πρωτότυπο

xzyx-z-y

space, όποιος και αν είναι ο συντελεστής παλινδρόμησης που έδωσε η προερχόμενη μεταβλητή b (εδώ είναι 0.5), θα κατανέμεται δίκαια σύμφωνα με τα βάρη του άξονα που προέρχεται από PCA (έτσι ώστε τα τελικά βάρη RPCA να είναι

(0.25,0.25)(0.25, 0.25)

).