Harun Reşit Zafer

bâki kalan bu kubbede bir hoş sadâ imiş

Kategori: Doğal Dil İşleme (sayfa 1 / 2)

Türkçe Dostu Bir Sohbet Botu

Eski bir yazımda Türkçe (ç, ı, ğ, ö, ş, ü) harflerinin Q klavye üzerindeki elverişsiz konumundan dolayı F klavyeye geçme çabamdan bahsetmiştim. O yazının üzerinden uzun zaman geçti ve ben F klavyeye hiç bir zaman geçemedim. Ancak bu sorun da kafamın bir köşesinde her zaman yer etti durdu. Zira Türkçe karakterleri göz ardı edince, yani ğ yerine g, ı yerine i yazınca tuşlama hızım gözle görülür biçimde artıyordu. Ama biraz daha hızlı yazabilmek için bu harfleri feda etmek de içimden gelmiyordu. Suç bu harflerin değildi tabii ki. Bu harfler aslında ait olmadıkları bir klavye düzenine sonradan sığıştırılmış, ikinci sınıf vatandaş muamelesi gören mülteciler gibiydiler Q klavye üzerinde. Yine de bu harfler alfabemizin olmazsa olmaz üyeleri, dilimizin vazgeçilmez sesleriydiler. Bu nedenle bir kaç yıl önce T23 projesine başlamıştım. Alfabemizdeki 29 harfi, bu 6 güzide harfin olmadığı 23 harfle tuşlayabilmekdi amaç. T23 ismi de buradan geliyor. okumaya devam

Nüve ile Türkçe Cümle Sonu Tespiti

Önceki yazımda Türkî diller için bir doğal dil işleme kütüphanesi olan Nüve‘den bahsetmiştim. Nüve 1.1 versiyonu ile birlikte cümle sonu tespit yeteneği de kazanmış durumda. Nüve’nin cümleleme modülü kural tabanlı çalışıyor ve mükemmel olduğu söylenemez ancak bir çok metin için iş görecek kadar başarılı olduğunu söyleyebilirim. Kullanacak arkadaşlar da gördükleri hataları bildirirerek başarımın artmasına yardımcı olabilir ve projeye katkıda bulunabilirler.

Nüve’yi projenize 2 şekilde ekleyebilirsiniz. okumaya devam

Türkçe Cümle Sonu Tespit Araçları için bir Karşılaştırma

Bu yazıda cümle sonu tespiti problemini ve Nüve başta olmak üzere Türkçe için belli başlı cümle sonu tespit araçlarını (Zemberek, OpenNLP, ITU Pipeline) incelemeye çalıştım.

Doğal dil işleme ve metin analizi çalışmalarında zaman zaman metni cümlelerine ayırmaya (cümlelemeye) ihtiyaç duyulur. Literatürde bu probleme “cümle sonu tespiti” (sentence boundary detection) denir. Metindeki satırsonu karakterleri (newline, \n, \r) paragrafları birbirinden ayırır. Cümleleme işlemi paragraflar üzerinde yapılır. Bir paragraf bir ya da daha fazla cümleden oluşabilir. okumaya devam

Türkî Diller için Doğal Dil İşleme Kütüphanesi: Nüve

İnsan dili veya doğal dil günlük yaşantımızdaki en önemli iletişim kanalımız. Bilgiyi doğal dil biçiminde duyarak ya da okuyarak beynimize alır (input) , beynimizde işler (processing) ve yazılı ya da sözlü olarak dışarı aktarırız (output). İletişim organlarımız ile birlikte beynimiz, bu işi mükemmel biçimde yerine getirirken bilgisayarlar doğal dili işleyebilme konusunda henüz emekleme aşamasındalar. Yine de son 10 yıldır günlük yaşantımızda giderek artan biçimde doğal dil işleme tabanlı uygulamalardan istifade ediyoruz. MS Word gibi kelime işlemciler imla denetimi yaparken, Google Translate gibi uygulamalar otomatik çeviri yapıyor. E-posta hizmeti sağlayıcıları e-postalarımızın istenmeyen (spam) olup olmadığını bizim okumamıza gerek kalmadan tespit edebiliyor. Milyonlarca kullanıcının tweet ya da yorumlarını tek tek okumak zorunda olmadan bir ürün, kişi ya da kurum hakkındaki genel kanaati otomatik olarak tespit edebiliyoruz. okumaya devam

Türkçe Fiil Çekimleri Uygulaması

Türkçe fiillerin çekimlerini otomatik üreten bir programı kodlamayı uzun zaman önce düşünmüştüm. O zamandan beri vakit buldukça azar azar geliştirdiğim uygulamanın ilk sürümünü sonunda yayınlayabildim. Uygulama bu hali ile kime ne kadar fayda sağlar bilemiyorum. Ama ileriki sürümlerinin ilk-orta-lise öğrencilerine ve Türkçe öğrenmek isteyen yabancılara yararlı olmasını hedefliyorum. Bu bağlamda sizin de görüş ve önerilerinizi bekliyorum:

http://fiilcek.apphb.com/

Teknik detaylara gelecek olursak: okumaya devam

Türkçe Metinlerin Sınıflandırılması için Deney Ortamı: Prizma

Bundan önceki metin sınıflandırma çalışmamızı kısaca özetleyerek başlayalım. 10 yazara ait 100’er köşe yazısı toplamış bunlardan bir kısmı ile sistemi eğitmiş diğer kısmını ise test için kullanarak köşe yazılarını yazarlarına göre sınıflandırmaya çalışmıştım. Bunun için yazdığım Java kodu her bir yazıdan 13 adet nitelik (attribute) değeri çıkarıyordu. Mesela ortalama kelime uzunluğu, cümle uzunluğu, noktalama işareti kullanım oranı bu niteliklerden bazılarıydı. Sonuçlar ise %95 oranında isabetliydi. Rakamlarla konuşmak gerekirse 10×100 = 1000 köşe yazısından 50×10= 500 adedini eğitim (training) için kullandığımızda kalan 500 yazıdan yaklaşık 475 kadarının hangi yazara ait olduğu doğru şekilde tahmin edilebiliyordu. okumaya devam

Eski yazılar

© 2017 Harun Reşit Zafer

Temayı tasarlayanAnders NorenYukarı ↑