DataLab ist ein kompaktes Statistikprogramm zur explorativen Datenanalyse. Weitere Informationen finden Sie auf den DataLab Webseiten ....



Eine geführte Tour: Hauptkomponentenanalyse

Als nächstes wollen wir einen Blick auf die Hauptkomponentenanalyse (PCA) werfen. PCA basiert auf der Annahme, dass die Richtung der größten Varianz in den Daten die meiste Information trägt. Daher wird der n-dimensionale Datenraum so gedreht, dass die Richtungen der größten Varianz die Koordinatenachsen des Datenraumes werden. Die resultierenden neuen Achsen (Hauptkomponenten) stehen normal aufeinander und sind nach absteigender Varianz geordnet. Dadurch zeigt die erste Hauptkomponente die maximale Varianz der Daten. Die mathematischen Details überschreiten den Rahmen dieses Handbuches. Der interessierte Leser sei auf eines der Standardlehrbücher verwiesen, z.B. [Jolliffe 86] oder [Flury 83].

Lassen Sie uns zuerst einen weiteren Datensatz laden (siehe auch Hinweis am Ende dieser Seite): WINE.IDT. Dieser Datensatz wurde von einer chemischen Analyse von drei unterschiedlichen italienischen Weinen (Barolo, Grignolino, Barbera) abgeleitet. Es wurden insgesamt 178 Proben auf 13 verschiedene chemische oder physikalische Parameter untersucht [Forina 82].

Um einen Überblick über multivariate Daten zu bekommen, ist es meist nicht ausreichend, einfach zwei Variablen gegeneinander darzustellen. Es stellt sich primär die Frage, welche Variablen für das Diagramm ausgewählt werden sollen, da die Zahl der möglichen Kombinationen bei vielen Variablen sehr groß werden kann. Ein weiteres häufiges Problem mit multivariaten Daten ist, dass die Variablen gewöhnlich miteinander korreliert sind, was die Information einschränkt, die aus einem solchen Diagramm gezogen werden kann. Eine Lösung für diese Probleme kann in der Hauptkomponentenanalyse gefunden werden.

Lassen Sie uns also die Hauptkomponenten berechnen, und mit Hilfe der PCA-Scores die Daten betrachten. Klicken Sie dazu auf den Befehl Mathematik/Hauptkomponentenanalyse (Knopf in der Werkzeugleiste). Im Hauptkomponentenfenster wählen Sie zuerst die Variablen die einer PCA unterzogen werden sollen, in dem Sie auf die Liste der Deskriptoren drücken und im darauf folgenden Dialog alle Variablen auswählen. Klicken Sie nun auf den Knopf Berechnen, die Hauptkomponenten werden innerhalb weniger Sekunden berechnet, und die Ergebnisse in mehreren Fenstern dargestellt.

Das Fenster "Zusammenfassung" gibt Ihnen eine erste Information über die Struktur der Daten. Je mehr Eigenvektoren Sie zur Beschreibung der Varianz innerhalb der Daten benötigen, desto höher ist die innere Dimensionalität der Daten. In unserem Fall benötigen wir acht Eigenvektoren, um mehr als 90 % der Varianz zu beschreiben (was im Vergleich zur Anzahl der originalen Variablen eine relativ hohe Zahl an Hauptkomponenten ist).

Nun, da die PCs berechnet sind, können Sie die Scores und Loadings der Hauptkomponenten ansehen. Die Scores sind grundsätzlich die Projektion der Daten auf ein neues Koordinatensystem, das durch die Eigenvektoren aufgespannt wird.

Die Loadings legen die Größe des Beitrags jeder originalen Variablen zu den PCs fest. Um einen Überblick über die Daten zu bekommen, sollten Sie das Scores/Scores-Diagramm der zwei wichtigsten Hauptkomponenten betrachten. Zusätzlich gibt Ihnen die Loadings/Loadings-Darstellung einen Überblick über die Wichtigkeit der Originalvariablen. Wenn Sie das Scores/Scores-Diagramm betrachten, sehen Sie sofort, dass es drei Datencluster gibt. Das ist nicht verwunderlich, da die Daten drei Weinsorten beschreiben.

Aktivieren Sie nun die Darstellung der Klasseninformation, um die verschiedenen Arten von Wein besser erkennen zu können (klicken Sie dazu auf das Schlüsselsymbol links neben dem Score/Score-Plot und wählen Sie im darauf folgenden Fenster die Optionen "Klassensymbole" und "Klassenfarben"). Das Ergebnis untermauert unseren ersten Eindruck, dass es drei Cluster in den Daten gibt. Sie können nun sehen, dass die Cluster nur wenig überlappen, und es daher möglich sein sollte, einen Klassifikator zu erstellen, der die drei Sorten Wein anhand der chemischen Analyse unterscheiden kann. Die Daten enthalten außerdem zwei Weine unbekannter Herkunft, die nun durch einen Stern markiert sichtbar werden. Die Zuordnung dieser Weine lässt sich damit problemlos machen.

Wenn Sie das Loadings/Loadings-Diagramm betrachten, sehen Sie, dass alle Originalvariablen etwa die gleiche Bedeutung für die Beschreibung der ersten zwei Hauptkomponenten haben (kein Loadingvektor hat einen Wert der für beide PCs nahe null ist).

Eine sehr gute Darstellung um sowohl Gruppen in den Daten, als auch in den Variablen zu erkennen ist der sog. "Biplot". Hier werden die Scores und die Loading zwei ausgewählter Hauptkomponenten übereinander geplottet. Man sieht einerseits die Gruppierung der Weine, aber andererseits auch, dass z.B. die Variablen 4 und 8, sowie 6, 7 und 9 jeweils sehr ähnliche Loadings aufweisen (was den Verdacht aufkommen lässt, dass diese Variablen jeweils das selbe repräsentieren).

Lassen Sie uns nun als nächstes einen Blick auf den Einfluss der Skalierung der Daten auf das Ergebnis der PCA werfen. Wir schalten dazu auf den Loadings-Plot einer einzelnen Hauptkomponente um (Reiter "Loadings"). Sie sehen nun den Loadingsvektor, wobei die Elemente des Vektors als Strichspektrum angezeigt werden. Sie sehen, dass die erste PC aus einer Kombination von zumindest 12 Variablen (12 Nicht-Nullelemente des Vektor) besteht.

Als nächstes sollten Sie die Hauptkomponenten nochmals mit einer anderen Skalierung berechnen. Wählen Sie dazu die Option "Mittelwert zentrieren" im Feld Skalierung der Daten und klicken Sie auf den Knopf "Berechnen". Aus dem Diagramm kann man sehr gut erkennen, dass in diesem Fall die erste PC eigentlich nur aus einer Variablen besteht (Variable 13). Das selbe gilt für die zweite PC (Variable 5). Der Grund dafür ist, dass die Varianz dieser zwei Variablen die Varianz der anderen Variablen bei weitem übertrifft (verwenden Sie den Knopf um die Datenmatrix im numerischen Editor zu betrachten). Da wir mittelwertzentrierte Daten als Basis für die PCA (Kovarianzmatrix) gewählt haben, wurden die Varianzen der Daten nicht skaliert, und haben daher großen Einfluss auf das Ergebnisse der PCA. Sie werden sich jetzt vielleicht fragen, wie die Ergebnisse aussehen, wenn überhaupt keine Skalierung vor der PCA angewendet wird. Probieren Sie es einfach aus!

Wie Sie wahrscheinlich schon wissen werden, erstellt die PCA ein orthogonales Koordinatensystem mit linear unabhängigen Achsen. Daher kann es manchmal von Vorteil sein, die originalen Daten durch ihre Hauptkomponenten-Scores zu ersetzen (was einer Rotation des originalen Datensatzes entspricht) und mit diesen Scores weiterzuarbeiten. Sie könnten zum Beispiel eine Clusteranalyse basierend auf PCs durchführen, oder die ersten drei PCs mit der 3D- Rotation betrachten. Die Verwendung von PCs kann Sie davon befreien, die 'besten' Variablen für Ihr Problem auswählen zu müssen, da die PCs entsprechend ihrer Varianz geordnet sind. Sie sollten sich aber dessen bewusst sein, dass PCs nicht zwangsläufig der beste Weg zum Umgang mit multivariaten Daten sind.

Hinweis: Bitte beachten Sie, dass die Evaluierungsversion von Datalab es nicht erlaubt Datensätze mit mehr als 500 Elementen zu laden. Größere Datensätze liegen jeweils auch als kleinere Teilmengen vor, die im Dateinamen mit den Buchstaben "_500" gekennzeichnet sind; z.B.: "wine.idt" (vollständiger Datensatz) und "wine_500.idt" (Teildatensatz).


Last Update: 2012-Jul-25