DataLab ist ein kompaktes Statistikprogramm zur explorativen Datenanalyse. Weitere Informationen finden Sie auf den DataLab Webseiten ....



PLS-Modell erzeugen

Command: Mathematik -> Multiple Regression -> Partial Least Squares Regression -> Modell erzeugen...

DataLab bietet neben etlichen anderen Modellierungsverfahren auch das Partial Least Squares-Verfahren (PLS Regression) an, das mit dem Befehl Mathematik/Partial Least Squares... geöffnet werden kann. Das in DataLab implementierte PLS-Verfahren basiert auf dem SIMPLS-Algorithmus, der sowohl PLS1 als auch PLS2 abdeckt.

Um ein Modell zu erstellen müssen zuerst die unabhängigen und die abhängigen Variablen definiert werden. Dazu klickt man in die entsprechenden Felder links oben bzw. rechts oben und wählt die gewünschten Variablen aus. Weiters kann man zwischen zwei Skalierungsarten wählen: "Mittelwert zentrieren" und "Standardisierung", wobei erstere das Standard-PLS-Verfahren darstellt.

Nach der Variablenauswahl wird die PLS-Berechnung durch klicken auf den "Berechnen"-Knopf gestartet. Dabei werden eine vom System vorgegebene maximale Zahl an Faktoren (momentan 20) berücksichtigt. Allerdings wird die maximale Zahl der Faktoren auch durch die ausgewählten Daten bestimmt, so dass in bestimmten Fällen die Zahl der ermittelten Faktoren auch niedriger sein kann.

Nach der erfolgreichen Berechnung des PLS-Modells kann dieses zur späteren Anwendung auf neue Daten gespeichert werden (Knopf "Modell speichern"), Weiters stehen auf verschiedenen Reitern folgende Informationen zur Verfügung:

Zusammenfassung Eine Liste der von jedem Faktor erklärten Varianz, sowohl für die unabhängigen Variablen, als auch für die abhängigen. Wird als erklärte Varianz kein Wert, sondern eine Reihe von Sternen ausgegeben, so deutet das darauf hin, dass dieser Faktor nicht existiert (bedingt durch kollineare Variablen). Rechts daneben werden dies auch grafisch dargestellt. Dieses Diagramm lässt auf einen Blick erkennen, wieviele Faktoren tatsächlich zur Modellierung der abhängigen notwendig sind.
Wirkliche vs. geschätzte Werte Auf dieser Seite werden die wirklichen Werte der momentan ausgewählten abhängigen Variablen gegen die vom Modell geschätzten Werte aufgetragen. Die Auswahl der dargestellten abhängigen Variablen erfolgt durch Anklicken des Knopfes in der Spalte "Anzeigen" in der Liste der Response-Variablen. Die Zahl der Faktoren, die für das jeweile Modell verwendet werden, können durch den Regler "Zahl der Faktoren" ausgewählt werden.
Residuen Stellt die Residuen für die momentan ausgewählte Response-Variable bei der gegebenen Zahl von Faktoren dar.
Verteilung - Residuen Stellt die Verteilung der Residuen für die momentan ausgewählte Response-Variable bei der gegebenen Zahl von Faktoren dar.
Kreuzvalidierung Auf dieser Seite kann das PLS-Modell in Abhängigkeit der Zahl der Faktoren kreuzvalidiert werden. Es können sowohl die Größe des Testsets als auch die Zahl der Wiederholungen eingestellt werden. Bei voller Kreuzvalidierung (Testset-Größe = 1) ist eine Wiederholung nicht sinnvoll, die Einstellung der Wiederholungen wird daher in diesem Fall ignoriert.
Loadings X Stellt die Loadings der unabhängigen Variablen als Strichdiagramm dar.
Reg.koeff. Zeigt die Regressionskoeffizienten als Strichdiagramm.
Details Listet die detaillierten Ergebnisse der PLS.

Hinweis: Die Zeit zur Berechnung eines PLS-Modells is ungefähr proportional zur Zahl der Faktoren mal der Zahl der abhängigen Variablen mal dem Quadrat der Zahl der unabhängigen Variablen. Es ist deshalb eine gute Idee die Zahl der unabhängigen Variablen auf 1000 zu beschränken (falls das möglich ist). Beispiel: Erhöht man die Zahl der unabhängigen Variablen von 1000 auf 10000, so steigt die Berechnungszeit um den Faktor 100.


Last Update: 2012-Aug-18