Bilkent Yeni Olay Belirleme ve İzleme Deney Derlemi

Deney Derlemi Hakkında

Bilgi Erişim (BE – information retrieval) ve Bilgi Süzme (BS – information filtering) sistemlerine benzer fakat farklı bir uygulama olan Yeni Olay Belirleme ve İzleme (YOBİ) sistemleri son yıllarda Web’deki haber kaynaklarının artmasıyla birlikte önem kazanmıştır.  Bir YOBİ ortamında, sisteme zaman sırasıyla sürekli olarak gelmekte olan haberlerin içinde yeni olaylara karşılık gelen haberler ve bu ilk hikâyelerin devamı olan haberler saptanır.  Bir YOBİ sistemi bilinmeyenlerin özdevinimli olarak keşfedilmesini amaçladığı için bir veri madenciliği uygulamasıdır [Witten, Frank, 2000].

YOBİ için geliştirilen algoritmaların haber portallarında uygulanmasından önce etkinliklerinin deneysel olarak saptanması gerekir.  Bu amaçla, içinde insanlar tarafindan ilk hikâyesi saptanmış ve izlenmiş haberler olan deney derlemleri kullanılır [Allan,Papka,Lavrenko 1998].  Bu derlemler sayesinde, geliştirilen algoritmaların insanlar tarafından saptanmış gerçek duruma ne denli uyum gösterdiği yanlış ikaz (false alarm), Yİ, ve kaçırma oranı (miss rate), KO, gibi çeşitli kıstaslarla ölçülür.  Böylece, bu algoritmaların gerçek bir uygulamada kullanıcıların etkinlik beklentilerini ne denli karşılayacağı saptanır.  Etkinlik ölçümünde kullanılan Yİ konuyla ilgisiz olduğu halde ilgili sanılarak bulunan haberlerin, KO ise bulunması gerektiği halde kaçırılan haberlerin oranını yansıtır.  Sistem geliştirimi sırasında deney derlemi yardımıyla, sistemin çeşitli parametrelerinin elde edilen başarıdaki etkileri saptanır ve bu parametrelerin daha iyi sonuç verecek biçimde ayarlanmaları sağlanır.  YOBİ deney derlemleri sayesinde farklı yaklaşımlarla yapılmış olan sistemlerin etkinlikleri birbirleriyle karşılaştırılabilir.  Bu karşılaştırma işlemi ortak kullanılan standart deney derlemleri ile yapıldığı takdirde farklı sistemlerin göreceli etkinliği daha sağlıklı bir biçimde saptanacağı için araştırmacılar ne yapmaları gerektiği konusunda dogru kararlar verebilirler.  Standart deney derlemlerinin yapılan araştırmaların düzeyini yükseltici olumlu etkisi literatürde kanıtlanmış bir gerçektir. [Voorhees, 2005].

Haber Kaynakları

Deney derleminin hazırlanmasında Web’deki aşağıdaki  haber kaynaklarından yararlanılmış ve bu kaynaklardaki 2005 yılına ait saat ve dakika damgalı bütün haberler indirilmiştir.


Haberlerin kaynaklar arasındaki dağılımı.

Bu haber kaynakları

  • Verdikleri haberleri gün bilgisine ek olarak yayınlanma zamanını da istenilen ayrıntıyla (saat, dakika.) vermektedir, haberin yayınlanma zamanı YOBİ işleminde önemlidir.  Yararlanılan kimi haber kaynaklarında bu durum “son dakika” vb. gibi haberler için geçerli olabilmektedir, bu gibi durumlarda sadece bu türden ayrıntılı zaman bilgisi içeren haberler deney derlemine dahil edilmiştir,
  • Farklı düşünce yapılarını temsil etmektedirler; örneğin, CNN Türk, CNN International ile olan bağlantısından ötürü Amerikanvari bir haber verme biçimini yansıtmaktadır, Milliyet Gazetesinin gelişimci bir dünya görüşünü yansıttığı söylenebilir, TRT bir devlet kurumudur, Zaman Gazetesinin muhafazakâr bir görüşü temsil ettiği söylenebilir.  Haber 7 ise kullanılan haber kaynaklarını zenginleştirmekte ve bir çeşitlilik sağlamaktadır.  Farklı görüşlere sahip oldukları söylenebilecek kaynaklar kullanarak, haberlerin çeşitli yönlerini yakalayabilecek bir sistemin özelliklerinin geliştirilecek yaklaşımlara yansıtılması amaçlanmaktadır.
Derlemdeki haberlerle ilgili özet bilgi
Haber Kaynağı Haber Sayısı Yüzde Katkısı İndirilen Bilgi (MB) Ayıklanmış Bilgi (MB) Yaklaşık Kelime Sayısı
CNN Türk 23.644 11,3 1008,3 66,8 271
Haber 7 51.908 24,8 3629,5 107,9 238
Milliyet Gazetesi 72.233 34,5 508,3 122,5 218
TRT 18.990 9,1 937,9 18,3 121
Zaman Gazetesi 42.530 20,3 45,3 33,7 97
Derlemin Tümü 209.305 100,0 6129,3 349,2 200

Derlemin oluşturulmasına 39 kullanıcı katkıda bulunmuştur. Kullanıcıların çok olması derlemin sağlıklı olması açısından da önemlidir. Her bir profil için ortalama 114 dakika harcanmıştır. En fazla “şiddet ya da savaş haberleri” ile ilgili profil bulunmaktadır. Bu türü “Ünlüler/İnsanlarla ilgili haberler” ve “Kazalarla ilgili haberler” izlemektedir. Şu anda sistemde değerlendirilmiş ve kontrol edilmiş 80 profil yer almaktadır.

Profiller hakkında detaylı bilgi için tıklayınız. (İstatistikler)

Derlemin hazırlanışı ve derlem hakkındakı detaylı bilgi için aşağıdaki makaleden faydalanabilirsiniz.

Türkçe Haberlerde Yeni Olay Bulma ve İzleme: Bir Deney Derleminin Oluşturulması [PDF]

Referanslar

Allan, J., Papka, R.,Lavrenko, V.. On-line new event detection and tracking. In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, pages 37-45, Melbourne, Australia, 1998. ACM Press.

Voorhees, E. (2005). TREC: Improving information access through evaluation. Bulletin of the American Society for Information Science and Technology,  32.

Witten, I. H., Frank, E. (2000). Data mining: Practical machine learning tools and techniques with Java implementations. San Francisco Morgan Kaufmann.

Derlemi edinmek

Derlemi edinmek için bağlantıda verilen formu doldurup aşağıdaki iletişim bilgileri aracılığıyla bize ulaştırınız.

Koleksiyon kullanımı ile ilgili başvuru formu [PDF]



İletişim Bilgileri

Bilkent Bilgi Erişim Grubu
Bilgisayar Mühendisliği Bölümü
Bilkent Üniversitesi
06800 Ankara
Türkiye

Fax: +90 (312) 266 4047

E-Posta:canf [at] cs.bilkent.edu.tr