Bu yazıda cümle sonu tespiti problemini ve Nüve başta olmak üzere Türkçe için belli başlı cümle sonu tespit araçlarını (Zemberek, OpenNLP, ITU Pipeline) incelemeye çalıştım.

Doğal dil işleme ve metin analizi çalışmalarında zaman zaman metni cümlelerine ayırmaya (cümlelemeye) ihtiyaç duyulur. Literatürde bu probleme “cümle sonu tespiti” (sentence boundary detection) denir. Metindeki satırsonu karakterleri (newline, \n, \r) paragrafları birbirinden ayırır. Cümleleme işlemi paragraflar üzerinde yapılır. Bir paragraf bir ya da daha fazla cümleden oluşabilir. okumaya devam