DataLab ist ein kompaktes Statistikprogramm zur explorativen Datenanalyse. Weitere Informationen finden Sie auf den DataLab Webseiten ....



Eine geführte Tour: Multiple Lineare Regression

Um mit der multiplen linearen Regression (MLR) zu beginnen, lassen Sie uns zuerst die Datei BOILPTS.IDT laden. Wie Sie sich wahrscheinlich noch aus früheren Abschnitten erinnern, enthält diese Datei 185 Objekte zu je 13 Variablen. Die Daten beschreiben den Siedepunkt von 185 chemischen Verbindungen und einige strukturelle Merkmale dieser Verbindungen. Lassen Sie uns nun eine Antwort darauf finden, ob es möglich ist, den Siedepunkt aus den strukturellen Merkmalen mit Hilfe von MLR zu schätzen.

Klicken Sie für einen ersten Versuch einfach auf den Befehl Mathematik/Multiple Lineare Regression/Modell berechnen... (Schnellstartknopf ). Das erscheinende Fenster stellt Ihnen verschiedene Befehle zur Verfügung, unter anderem den Befehl Berechnen, der aber nur aktiv ist, wenn Sie die unabhängigen Variablen (Deskriptoren) und die zu modellierende Variable (Zielvariable) definiert haben.

Lassen Sie uns den ersten Versuch starten, in dem wir die Variablen 4, 6 und 8 (nHetAt, toporad und n-branch) als Eingangsvariablen, und die Variable 13 (die Siedepunkte) als Zielvariable wählen. Klicken Sie dazu zuerst in die Liste der Deskriptoren und wählen Sie die entsprechenden Variablen aus. Danach klicken Sie in die Tabelle "Abhängige Variable" und wählen den Siedepunkt als Zielvariable aus. Zur Berechnung der Regression klicken Sie nun auf Berechnen.

Die Ergebnisse werden in drei umschaltbaren Fenstern dargestellt:

  • wirkliche vs. geschätzte Werte
  • Histogramm der Residuen
  • Residuen
Weitere Details zum erstellten MLR-Modell sind im Protokoll abgespeichert (Knopf ). Im Diagramm "wirkliche vs. geschätzte Werte" sollten im Idealfall alle Datenpunkte auf der eingezeichneten Gerade liegen. In unserem Beispiel ist die Realität jedoch weit vom Ideal entfernt, wie aus der folgenden Abbildung ersichtlich ist. Probieren Sie eine andere Kombination an Variablen! Ergibt das ein besseres Ergebnis?

Sie werden sich jetzt fragen, wie Sie die beste Variablenkombination finden können, da die Zahl der möglichen Kombinationen groß ist (für p unabhängige Variablen gibt es 2p-1 Kombinationen, was bei unserem Datensatz mit 12 unabhängigen Variablen 4095 ergibt). Im Prinzip gibt es mehrere Möglichkeiten, um eine mehr oder weniger passende Kombination an Variablen zu wählen: z.B.: schrittweise Regression, Rückwärtseliminiation, Vorwärtsselektion oder einfach das Ausprobieren aller möglichen Kombinationen. DataLab bietet die gängigsten Methoden zur Variablenauswahl an, Sie können die Variablenauswahl mit dem Befehl Mathematik/Multiple Lineare Regression/Variablenauswahl oder mit dem Schnellstartknopf starten.

Versuchen Sie nun, die Vorwärtsselektion zu starten. Wählen Sie dazu die abhängige Variable aus, in dem Sie in der dritten Spalte die Variable 13 (boil. point) als Ziel ankreuzen. Nach dem Klicken auf den Startknopf erscheint eine Liste von Untermodellen, von denen das beste mit einem schwarzen Balken markiert wird. Dieses Modell umfasst die Variablen 10, 2, 8, 12, und 5:

Klicken Sie auf den Knopf um die ausgewählten Variablen in das MLR-Fenster zu kopieren und starten Sie dort die Berechnung des Modells erneut. Das neue Modell liefert ein wesentlich besseres Ergebnis mit einer Standardabweichung von nur 7.45 °C und einem Bestimmtheitsmaß von 0.9767.


Last Update: 2012-Jul-25