DataLab ist ein kompaktes Statistikprogramm zur explorativen Datenanalyse. Weitere Informationen finden Sie auf den DataLab Webseiten ....



Clusteranalyse

Befehl: Mathematik -> Clusteranalyse...

Der Befehl Mathematik/Clusteranalyse... bietet verschiedene Methoden, um Dendrogramme zu erstellen. Der Benutzer kann aus fünf verschiedenen Clusterverfahren in Kombination mit vier verschiedenen Abstandsmaßen wählen. Weiters kann das entstandene Dendrogramm dazu verwendet werden, Datenobjekten neue Klassennummern zuzuweisen. Nach dem Start der Clusteranalyse, müssen Sie zuerst die Variablen auswählen, die für die Clusteranalyse verwendet werden sollen. Danach wird das Dendrogramm berechnet und dargestellt. Das Dendrogramm kann vergrößert und verschoben werden, in dem man die Mausfunktion mit den entsprechenden Knöpfen in der Kommandoleiste umstellt.

 Variablenauswahl Wahl neuer Variablen zur Berechnung des Dendrogramms. Die Variablen werden mit Hilfe des Variablen-Auswahldialogs gewählt.
 Klassen zuweisen Ein Dendrogramm kann dazu benützt werden, Objekten neue Klassennummern zuzuweisen. Der Benutzer muss den Abstand zwischen den Clustern festlegen, der als minimales Abstandskriterium für die Klassenzuordnung genommen wird. Allen Clustern, die einen größeren Abstand zueinandern besitzen als dieser Abstand, werden neue Klassennummern zugewiesen. Der Abstand wird interaktiv durch Ziehen der roten strichlierten Linie festgelegt.
 Verfahren Der Benutzer kann aus folgenden Clustermethoden wählen:
  • Single Linkage
  • Complete Linkage
  • Average Linkage
  • Methode nach Ward
  • flexible Strategie

Die  flexible Strategie benötigt zusätzlichen den Parameter alpha, der mit Hilfe des Schiebereglers eingestellt werden kann.

 Distanzmaß Das Dendrogramm kann mit vier Abstandsmaßen berechnet werden:
  • Euklidisch
  • Quadratisch Euklidisch
  • Manhattan
  • Jaccard

Bitte beachten Sie, dass der Jaccard-Koeffizient kein Abstandsmaß ist, sondern ein Ähnlchkeitsmaß. Die Interpretation eines Dendrogramms wird daher für dieses Maß anders sein als bei den restlichen Maßen.

 Speichern in Newick-Format Das jeweilige Dendrogramm kann als Datei im Newick-Format gespeichert werden.
 Protokoll anzeigen Das Protokoll zum Dendrogramm enthält die numerische Beschreibung des Dendrogramms in zwei Formaten. Im ersten Teil wird das Dendrogramm als Tabelle beschrieben, im zweiten Teil wird der Newick-String angegeben.

Die Clustertabelle enthält vier Spalten; die erste und zweite Spalte enthalten die Objektnummer und die Objektbezeichnung durch ein Pipe-Symbol getrennt. Dendrogrammknoten werden durch die jeweilige Knotennummer und ein '+' als Objektbezeichner beschrieben. Zu jedem Objekt bzw. Dendrogrammknoten wird die Knotennummer des übergeordneten Knotens angegeben (3. Spalte) und die Distanz des Knotens von der Basislinie (4. Spalte). Man beachte dass, die Tabelle immer N-1 Zeilen hat (N = Zahl der Objekte), und die Knoten mit Nummern ab N+1 beschrieben werden.

Skalierung der Daten bei der Clusteranalyse. Betrachtungen zu den Auswirkungen von skalierten Daten.


Last Update: 2012-Aug-27