DataLab ist ein kompaktes Statistikprogramm zur explorativen Datenanalyse. Weitere Informationen finden Sie auf den DataLab Webseiten ....



Datensatz aufspalten

Befehl: Werkzeuge -> Datensatz aufspalten...

Während einer Datenanalyse ist es oft notwendig, mehrere unabhängige Teilmengen eines Datensatzes zu erzeugen, die als Trainings- und Testmenge verwendet werden können. DataLab bietet daher drei Möglichkeiten, solche Teilmengen zu erstellen: (1) Das Aufspalten nach Variablen bzw. Spalten, (2) das Aufspalten nach Objekten bzw. Zeilen und (3) die Erzeugung eines Test- und eines Trainings-Datensatzes. Die Größe der Teildatensätze kann mit dem Schieberegler links in der Mitte eingestellt werden. Die Art der Auswahl der Teildatensätze kann entweder zufällig, geblockt oder abwechselnd sein.

Nachdem Werkzeuge/Datensatz aufspalten... angeklickt wurde, wird ein Fenster mit den Einstellungen angezeigt, das dem Benutzer die Möglichkeit gibt, die Zahl der zu erzeugenden Dateien und den Modus des Probenziehens festzulegen (Zufallsstichproben, blockweise oder abwechselnd, und spalten- oder zeilenweise). Die Teilmengen werden aus der aktuellen Datenmatrix erstellt und im ASC-Format im aktuellen Arbeitsverzeichnis gespeichert.

Die Benennung der Datensätze erfolgt automatisch aus dem Namen der Datei-Schablone, der mit einer fortlaufenden Nummer erweitert wird.

Die Erstellung der Teilmengen erfolgt durch Anklicken des Befehls Ausführen.

Hinweis: Die Option der zufälligen Auswahl ersetzt nicht eine Randomisierung der Daten, da für den letzten Datensatz die übrig gebliebenen Zeilen bzw. Spalten verwendet werden ohne ihre Reihenfolge zu verändern. Das bedeutet, dass der letzte Teildatensatz, falls die Datenmatrix sortiert ist, ebenfalls sortiert ist.


Last Update: 2012-Jul-28