Vor dem Starten von Weka müssen die Vektorfiles ins arff Format konvertiert werden.

Die SOMLib-Vektor-Dateien (eg. Rhythm Patterns files die mit MATLAB extrahiert wurden) können mit folgendem Perl script konvertiert werden:

make_ARFF_out_of_SOMLIB_from_groundtruth.pl <vectorfile> <filelist_w_genres.txt>


Beim Start sollte man Weka Extra-Memory geben, etwa 800 MB wie hier:

java -Xmx800m -jar weka.jar

Aus dem GUI-Chooser den Explorer wählen.

Im Weka-Explorer: Open File und das .arff Vektorfile auswählen.

Zum Register Classify wechseln.

Choose: Functions - SMO (dies ist eine Implementierung der Support Vector Machines). 
Die default Parameter sollten im Moment genügen.

Folgende Test options stehen zur Verfügung:

* Percentage Split: xx % der Vektoren werden als Trainingsdaten zum
Lernen verwendet, der Rest zum Automatischen Testen

* Use training set: gelernt _und_ getestet wird auf allen Vektordaten
(nicht so sinnvoll)

* Supplied test set: hierzu muß es ein separates Trainings-Set und Test-Set an Vektordaten geben.
Das Trainings-Set wird zu Beginn per Open File geladen, das Test-Set wird hier mittels Button Set... ausgewählt.

* Cross-Validation: Folds: zB. 10
Die Vektoren werden in 10 Teilsets aufgesplittet, 9 werden zum Training
verwendet, 1 zum Testen aufgehoben; dabei gibt es 10 Iterationen, wobei
jedesmal ein anderes Set zum Testen verwendet wird; die End-Accuracy
wird aus den Mittelwerten der 10 Durchläufe berechnet.

Zum vernünftigen Testen wird die 10-fold Cross-Validation empfohlen.
Zum schnellen Testen kannst auch der Percentage Split (zB. 66 %) verwendet werden.
(nur 1 Iteration statt 10).

Auf Start klicken und warten, bis sich der Vogel recht unten nicht mehr beweget :-)

Im rechten Teil des Fensters erscheint die Ausgabe. Diese kann per
Rechtsklick in der Results list mit Save Result buffer in ein Ascii file abgespeichert werden.

Der wichtigste Ausgabewert ist Correctly Classified Instances, auch
genannt Classification Accuracy (in %). Weiters erhältst man die True
Positive (TP) Rate, Precision, Recall, etc. pro Klasse. 

Die Confusion Matrix zeigt wieviele Dokumente von  einer
Klasse (Zeile) fälschlicherweise einer anderen Klasse (andere Spalte)
zugeordnet wurden, und wieviele richtig (= Diagonale).
(Die Werte TP Rate etc. errechnen sich aus der Confusion Matrix).


Die Klassifizierung, Testen, Cross-Validation kann in Weka auch
automatisiert werden: Der Weka Experimenter erlaubt mehrere Durchläufe
mit mehreren Vektorfiles und/oder mehreren Classifiern. Alternativ kann
man Weka auch rein von commandline laufen lassen und sich die Ergebnisse
gleich in ein File umleiten lassen.