DataLab ist ein kompaktes Statistikprogramm zur explorativen Datenanalyse. Weitere Informationen finden Sie auf den DataLab Webseiten ....



Eine geführte Tour: Klasseninformation

Explorative Datenanalyse wird oft durch zusätzliche kategoriale Information über die Daten geleitet. Diese zusätzliche Information kann durch Zuweisung von Klassennummern gehandhabt werden, mit DataLab können Sie bis zu 127 verschiedene Klassen definieren. Diese Klasseninformation kann entweder durch Farben, oder durch Symbole angezeigt werden.

Ein kurzes Beispiel soll veranschaulichen, wie die Klasseninformation bei der Interpretation von Daten genutzt werden kann. Lassen Sie uns dazu einen anderen Datensatz ins DataLab laden: BOILPTS_NC.IDT, der aus 55 Objekten und 9 Variablen besteht. Diese Daten beschreiben den Siedepunkt von 55 chemischen Verbindungen und einige strukturelle Merkmale dieser Verbindungen (einige simple Merkmale wie die Zahl an Sauerstoff- oder Schwefelatomen, aber auch einige komplexere Merkmale wie topologische Indices, die sich von graphentheoretischen Betrachtungen der Molekülstruktur herleiten). Lassen Sie uns nun einen Blick auf die Daten werfen und herausfinden, ob es irgendeine Beziehung zwischen strukturellen Parametern und dem Siedepunkt dieser Substanzen gibt.

Nachdem die Datei BOILPTS_NC.IDT (Befehl Datei/Laden/IDT-Format oder Schnellstartknopf ) geladen wurde, öffnet DataLab zwei Diagrammfenster, die den Siedepunkt in Abhängigkeit von den Variablen 'Randic-Ix' und 'C-Atoms' darstellen:

Die Darstellung der Siedepunkte gegen die Anzahl der Kohlenstoffatome zeigt, dass es einen gewissen Zusammenhang gibt (je mehr Kohlenstoffatome, desto höher der Siedepunkt), obwohl die Korrelation nicht sehr gut ist. Weiters fällt ein interessanter Zusammenhang zwischen den Siedepunkten und dem Randic-Index (Variable "Randic-Ix") auf. Sie können drei Bänder sehen, von denen jedes eine starke Korrelation zwischen den Siedepunkten und dem Randic-Index zeigt. Natürlich stellt sich sofort folgende Frage: Welche Eigenschaft ist für diese Bänder verantwortlich? Um diese Eigenschaft herauszufinden, können Sie versuchen eines dieser Bänder zu markieren, und im zweiten Fenster alle anderen Variablen durchzugehen, um zu sehen, ob die Markierung irgendwelche Hinweise auf den Ursprung der Bänder gibt.

Markieren Sie zum Beispiel das mittlere Band. Danach verwenden Sie das zweite Fenster, um diese Variablen durchzusehen und nach augenscheinlichen Abhängigkeiten Ausschau zu halten. Wenn Sie das machen, werden Sie sicherlich durch die Tatsache verblüfft sein, dass fast alle markierten Objekte des mittleren Bandes genau ein Schwefelatom enthalten (alle entsprechenden Markierungen erscheinen in der 1-Schwefelatomregion im Diagramm Siedepunkt gegen Zahl der Schwefelatome).

Damit kommen wir zu der Hypothese, dass die Bänder im Diagramm Siedepunkt gegen Randic-Index durch die Zahl der Schwefelatome verursacht werden. Um das zu beweisen, lassen Sie uns nun das Konzept der Klasseninformation benützen. Dazu kopieren wir die Zahl der Schwefelatome in den Klasseninformationsvektor, in dem wir den Befehl Editieren/Daten/Kopieren/in die Klasseninformation verwenden. Wählen Sie die Variable die mit 'S-Atoms' bezeichnet ist. Nun wird die Klasseninformation auf die Zahl der Schwefelatome gebracht, was bedeutet, dass alle Substanzen ohne Schwefelatom zur Klasse 0 gehören, alle Verbindungen mit einem Schwefelatom zur Klasse 1 und so weiter. Das einzige was uns noch zu tun bleibt, ist das Aktivieren der Farbkodierung der Daten in der Darstellung Siedepunkt gegen Randic-Index. Öffnen Sie dazu das Einstellungsfenster () dieses Fensters und kreuzen Sie das Kästchen 'Klassenfarben' im Feld 'Attribute' an. Nun werden die Klassen als farbige Datenpunkte dargestellt, was beweist, dass unsere Annahme, dass die Schwefelatome für die drei Bänder verantwortlich sind, richtig war.

Und tatsächlich kann ein besseres Modell für die Siedepunkte dieser Substanzen gefunden werden, wenn die Zahl der Schwefelatome mit dem Randic-Index kombiniert wird.

Noch einige Bemerkungen zum Umgang mit Klasseninformationen: (1) Natürlich können Sie Klasseninformationen nicht nur durch unterschiedliche Farben darstellen, sondern auch durch verschiedene Symbole. Das kann von Bedeutung sein, wenn Sie eine Schwarzweißkopie machen wollen (verwenden Sie den Befehl Einstellungen im Diagramm, um auf die auf Symbolen basierende Codierung der Klasseninformation umzuschalten). (2) Sie können jeder Klasse eine beliebige Farbe oder ein beliebiges Symbol zuweisen, in dem Sie den Befehl Einstellungen/Klassenzuordnung/Farben () oder Einstellungen/Klassenzuordnung/Symbole () verwenden. (3) Klassennummern können als Gesamtes durch das Kommando Editieren/Klassen... () editiert werden.


Last Update: 2012-Jul-25