İki yıl kadar önce Doğal Dil İşleme dersi kapsamında yaptığım ve burada paylaştığım metin sınıflandırma çalışmasına devam etme şansı buldum. Aynı dersi alan ve proje arayan bir arkadaşa mevcut çalışmayı ilerletmeyi teklif ettim. O da kabul edip üzerine düşeni yerine getirince bu vesile ile hem Prizma ortaya çıkmış oldu hem de çalışma daha sağlam bir zemine oturdu.
Çalışmanın önceki versiyonunda 10 yazara ait köşe yazılarını, yazarlarına göre sınıflandırmayı denemiş ve %95’e varan bir isabet oranı yakalamıştım. Yeni çalışmamızda yazar sayısını 30’a çıkardık ve her yazar için 40 adet köşe yazısı topladık. Daha sonra 30’a yakın (belki de daha fazla) niteliği test ederek en verimli 19 tanesini tespit ettik. İlk olarak yazıların yarısını eğitim yarısını test (20×20) için kullandık. Daha sonra eğitim için kullanılan yazı sayısını önce 15’e sonra da 10’a düşürdük. Aşağıdaki tabloda da görüldüğü gibi sonuçlarda ciddi bir fark oluşmadı. Buradan hareketle 10 köşe yazısının bir yazarın yazım stilini tanımak için 10 yazı yeterli. okumaya devam