Bu aralar basında Google, BEA Systems gibi firmalardan ayrılan ar-gecilerin kurduğu Cuil (İngilizce cool yani havalı sözcüğü ile sesteş) arama motorunu deniyorum.
Google ile oldukça farklı bir indeksleme yöntemi kullandığı iddia edilen Cuil'in performansı oldukça değişken. Özellikle gözlediğim fark, İngilizce ve Türkçe aramalardaki fark. Cuil, Google gibi bağlantılar, referanslar gibi bir ilişki yoğunluğuna değil, sadece ve sadece içeriğe bakıyor. İçeriğe bakmakla da kalmıyor, siteleri içeriklerine göre kategorilendiriyor. E tabi bunu yaparken anlambilim (İng. semantic) arama yapabileceğiniz dildeki içeriğin de avantajı oluyor.
Örneklemek istersek, BEA Systems'ı Cuil'de aratınca, BEA'ya dair siteler ve kısaltması BEA olan bir ABD kamu kurumu ilk sayfada yer almakla birlikte, kategori önerileri harika geliyor.
- BEA Systems kategorisinde şirketin ürünlerini,
- Java Enterprise Platform kategorisinde şirketin JEE Uygulama Sunucusu ile başka şirketlere ait rakip ürünleri, önemli bazı Java EE arayüzlerini ve Apache Tomcat'i görüyoruz.
Gel gelelim, Türkçe bir arama yapınca iş karışıyor.
- Örneğin özgür yazılım diye aratınca GNU'nun sayfalarındaki Türkçe çeviriler sayesinde (İngilizce) GNU sayfaları çıkmakla birlikte, Türkçe sitelerden sadece LKD Linux Şenliği var. İkinci üçüncü sayfalara gidiyoruz ve hala sadece İngilizce içerikleri buluyoruz. Çünkü Cuil, GNU sitesine benzer İngilizce siteler aramakta.
- Başka bir deneme yapıp yüzüncü yıl diye aratıyorum. Bulunan şey Van 100. Yıl Üniversitesi oluyor. Daha sonra da yabancı haber ajanslarının Rektör Yücel Aşkın'ın tutuklandığı sona da aklandığı olaylara dair haber girdileri var. Türkçe içerik gene yok.
- Hadi bir şans daha verelim diyorum ve bu sefer iyice kolay bir şey arıyorum. Cumhuriyet Bayramı diye aratınca Milli Eğitim Bakanlığı'nın Belirli Günler ve Haftalar sayfasından tutun, çeşitli bloglara kadar çok sayıda Türkçe site çıkıyor. Ama bu sitelerin çıkmasının nedeni hepsinin içinde defalarca Cumhuriyet, Bayram ve Cuhuriyet Bayramı geçiyor olması olamaz mı? Yani 10 yıl önce Altavista'nın arama motoru becerileri için bile kolay bir arama yapıyorum ne de olsa.
Uzun lafın kısası, anlambilimsel arama, önemli yol kat etmeye başlamış. Ancak ne yazık ki sadece İngilizce için başarılı. Bunun böyle olabileceği, çok uzun zaman önce akademisyenler tarafından öngörülmüş ve verilerin üst-modeller ile zenginleştirilmesi gerektiği tartışılmıştı. Ancak nasıl ki on yıllar önce C kitaplıkları tasarlanırken, ASCII dışı karakter kümelerinin varlığını görmezden gelip Avrupa ve Asya dillerinde girdi/çıktı alacak uygulama yazmak zorlaştırılmış ise bugün de teknoloji yine İngilizce üzerine odaklanarak dünyanın anadili İngilizce olmayan çoğunluğunu, anadili İngilizce olan azınlığına terk ediyor.
Bunun çözümü nedir? İngilizce dışı dillerde, en azından en yaygın konuşulan dillerde (Çince, Hintçe, İspanyolca, Türkçe sanırım ilk sıralarda) anlambilimsel arama, otomatik çevirme gibi teknolojilere yatırım yapılması gerekli. Ancak bu yatırımın geri dönüşü o kadar da kolay sağlanabilir değil. Yani "bakın ben harika bir Türkçe anlambilimsel arama aracı geliştirdim" dediğiniz zaman bunu kime satacaksınız? Google yada Cuil bunu satın almak için o kadar çok para verecek mi? Peki acaba Adalet Bakanlığı gibi bir yerli kurum, evrak arşivlerinde arama yapmak için bu tür teknolojinin geliştirilmesinde ön ayak olur mu? Eninde sonunda birisinin bu teknolojilere para yatırması gerekecek. Aksi takdirde konu sadece akademik merak boyutunda kalacak.
E hadi sen git yatırım yap diyenleri duyar gibiyim. Herkes kendi alanında iyidir diyebiliyorum. Şirket olarak zaten güvenlik, yapay zeka/karar destek, ve etkileşim teknolojileri gibi üçlü bir odak seçmişiz. Buna bir de anlambilimsel arama eklersek darma dağın oluruz değil mi? Ayrıca Portakal Teknoloji'nin yada başka birisinin bu alana girmeye karar vermesi, gereken yatırımın ortaya çıkacağını garanti etmiyor ki. Özel sektör şirketleri de eninde sonunda o teknolojiden para kazanmayı hedeflemek durumunda.
Bakalım zaman ne gösterecek?
Tags: Genel