Harun Reşit Zafer

bâki kalan bu kubbede bir hoş sadâ imiş

Kategori: Doğal Dil İşleme (sayfa 2 / 2)

Bir Metin Sınıflandırma Çalışması

İki yıl kadar önce Doğal Dil İşleme dersi kapsamında yaptığım ve burada paylaştığım metin sınıflandırma çalışmasına devam etme şansı buldum. Aynı dersi alan ve proje arayan bir arkadaşa mevcut çalışmayı ilerletmeyi teklif ettim. O da kabul edip üzerine düşeni yerine getirince bu vesile ile hem Prizma ortaya çıkmış oldu hem de çalışma daha sağlam bir zemine oturdu.

Çalışmanın önceki versiyonunda 10 yazara ait köşe yazılarını, yazarlarına göre sınıflandırmayı denemiş ve %95’e varan bir isabet oranı yakalamıştım. Yeni çalışmamızda yazar sayısını 30’a çıkardık ve her yazar için 40 adet köşe yazısı topladık. Daha sonra 30’a yakın (belki de daha fazla) niteliği test ederek en verimli 19 tanesini tespit ettik. İlk olarak yazıların yarısını eğitim yarısını test (20×20) için kullandık. Daha sonra eğitim için kullanılan yazı sayısını önce 15’e sonra da 10’a düşürdük. Aşağıdaki tabloda da görüldüğü gibi sonuçlarda ciddi bir fark oluşmadı. Buradan hareketle 10 köşe yazısının bir yazarın yazım stilini tanımak için 10 yazı yeterli. okumaya devam

Türkçe İmla Denetimi Üzerine

Geçenlerde üzerinde çalıştığım bir proje gereği kapsamlı bir Türkçe kelime listesine ihtiyaç duydum. Buradaki listeden kastım standart bir Türkçe sözlükte bulunan kelimelerin listesi değil bunların ek almış hallerinin de bulunduğu geniş bir listeydi. Mesela “ev” kelimesinin “evim”, “evimiz”, “evimdeki” gibi biçimlerini de içeren bir liste. Peki, böyle bir liste kaç kelime ihtiva eder?

Soruyu şu şekilde de sorabilirdik: Türkçedeki “mümkün” tüm kelimelerin sayısı nedir? Mümkün (imkân dâhilinde) kelimesi size garip geldiyse hemen birkaç örnek vereyim; “bardaklaşıyordum”, “dondurmalandırmacı”  gibi. Bu garip kelimeler teorikte mümkün ve Türkçenin gramer kuralları açısından doğru ancak hali hazırda anlamlı değiller ve kullanılmıyorlar. Ama ileride mesela “bardaklaşmak” deyimi geçerli bir anlam kazanabilir. Tıpkı bir zamanlar “havalandırmacı” kelimesinin bir anlam ifade etmediği gibi. okumaya devam

Türkçe Cümle Çözümleyici: Fatih Parser

Konu ile ilgili bir önceki yazıda yüksek lisans tez çalışmamdan bahsetmeye çalışmıştım.

Çalışmayı tez aşamasında bırakmayıp herkesin erişebileceği, yararlanabileceği ve katkıda bulunabileceği aşamaya getirmek istiyordum. Elimde olmayan nedenlerle uzun zamandır istememe rağmen projenin kaynak kodları kapalıydı. Artık GitHub üzerinden erişilebilir. Ayrıca uzun zamandır kapalı olan proje demosu da artık yeni adresinde erişime açık.

Projenin amacı Türkçe ve diğer Türkî dillerdeki cümleleri yüksek doğruluk oranı ile tahlil (analiz) etmek. Ancak bunun için yapılması gereken pek çok şey var. GitHub üzerinden katkıda bulunabilirsiniz.

Cümle tahlilinin zor bir konu olduğunu ve projenin henüz emekleme aşamasında olduğunu hatırlatmak isterim. Ancak Fatih Parser Türkçe için herkesin erişimine açık ilk (2012’den beri) cümle çözümleyici. Benzeri çalışmalar için bir referans noktası teşkil etmesi ve ileride konu ile ilgili yapılacak çalışmalara katkısı olması dileğiyle.

Herkese kolay gelsin

Türkçe ve Diğer Türkî Diller için Cümle Çözümleyici

Bu yazıda yüksek lisans bitirme tezim bağlamında “bilgisayarlı cümle tahlili” konusuna değinmek istiyorum. Kavram karmaşasının önüne geçmek için hemen belirteyim. Cümle tahlili, cümle analizi ya da cümle çözümlemesi aynı manada kullanılıyor.

Tez başlığım “Türkî diller için genel sözdizimsel çözümleyici” idi. Ve 1 yıllık bir sürecin sonunda ortaya henüz emekleme aşamasında bir yazılım çıktı. Yazılımı anlatmadan önce sözdizimi (syntax), çözümleyici (parser), çözümleme (parsing) gibi kavramlara kısaca değineceğim. Konu hakkında daha detaylı bilgi almak isteyenler yazının sonundaki bağlantıdan tezin orijinalini indirebilirler.

okumaya devam

Bir veri madenciliği ve doğal dil işleme uygulaması

Güncelleme: Bu yazıda bahsedilen çalışma şu yazıda anlatıldığı gibi güncellenmiştir.

Bir köşe yazısının mevcut 10 yazardan hangisine ait olduğunu bulan bir uygulama yazdım. Örneğin ilgili gazetenin web sitesinden Engin Ardıç‘ın bir köşe yazısını kopyalayıp uygulamaya yapıştırıyor ve “Tahmin Et” butonuna basıyorsunuz, uygulama yazının hangi yazara ait olduğunu %95 başarı ile buluyor. Uygulamayı buradan (bu bağlantı artık çalışmamaktadır ve yeni bağlantıya bu sayfanın sonundaki bağlantı ile erişebilirsiniz) deneyebilirsiniz.

okumaya devam

Yeni yazılar

© 2017 Harun Reşit Zafer

Temayı tasarlayanAnders NorenYukarı ↑