Bundan önceki metin sınıflandırma çalışmamızı kısaca özetleyerek başlayalım. 10 yazara ait 100’er köşe yazısı toplamış bunlardan bir kısmı ile sistemi eğitmiş diğer kısmını ise test için kullanarak köşe yazılarını yazarlarına göre sınıflandırmaya çalışmıştım. Bunun için yazdığım Java kodu her bir yazıdan 13 adet nitelik (attribute) değeri çıkarıyordu. Mesela ortalama kelime uzunluğu, cümle uzunluğu, noktalama işareti kullanım oranı bu niteliklerden bazılarıydı. Sonuçlar ise %95 oranında isabetliydi. Rakamlarla konuşmak gerekirse 10×100 = 1000 köşe yazısından 50×10= 500 adedini eğitim (training) için kullandığımızda kalan 500 yazıdan yaklaşık 475 kadarının hangi yazara ait olduğu doğru şekilde tahmin edilebiliyordu. okumaya devam