Deney Derlemi Hakkında
Bilgi Erişim (BE – information retrieval) ve Bilgi Süzme (BS – information filtering) sistemlerine benzer fakat farklı bir uygulama olan Yeni Olay Belirleme ve İzleme (YOBİ) sistemleri son yıllarda Web’deki haber kaynaklarının artmasıyla birlikte önem kazanmıştır. Bir YOBİ ortamında, sisteme zaman sırasıyla sürekli olarak gelmekte olan haberlerin içinde yeni olaylara karşılık gelen haberler ve bu ilk hikâyelerin devamı olan haberler saptanır. Bir YOBİ sistemi bilinmeyenlerin özdevinimli olarak keşfedilmesini amaçladığı için bir veri madenciliği uygulamasıdır [Witten, Frank, 2000].
YOBİ için geliştirilen algoritmaların haber portallarında uygulanmasından önce etkinliklerinin deneysel olarak saptanması gerekir. Bu amaçla, içinde insanlar tarafindan ilk hikâyesi saptanmış ve izlenmiş haberler olan deney derlemleri kullanılır [Allan,Papka,Lavrenko 1998]. Bu derlemler sayesinde, geliştirilen algoritmaların insanlar tarafından saptanmış gerçek duruma ne denli uyum gösterdiği yanlış ikaz (false alarm), Yİ, ve kaçırma oranı (miss rate), KO, gibi çeşitli kıstaslarla ölçülür. Böylece, bu algoritmaların gerçek bir uygulamada kullanıcıların etkinlik beklentilerini ne denli karşılayacağı saptanır. Etkinlik ölçümünde kullanılan Yİ konuyla ilgisiz olduğu halde ilgili sanılarak bulunan haberlerin, KO ise bulunması gerektiği halde kaçırılan haberlerin oranını yansıtır. Sistem geliştirimi sırasında deney derlemi yardımıyla, sistemin çeşitli parametrelerinin elde edilen başarıdaki etkileri saptanır ve bu parametrelerin daha iyi sonuç verecek biçimde ayarlanmaları sağlanır. YOBİ deney derlemleri sayesinde farklı yaklaşımlarla yapılmış olan sistemlerin etkinlikleri birbirleriyle karşılaştırılabilir. Bu karşılaştırma işlemi ortak kullanılan standart deney derlemleri ile yapıldığı takdirde farklı sistemlerin göreceli etkinliği daha sağlıklı bir biçimde saptanacağı için araştırmacılar ne yapmaları gerektiği konusunda dogru kararlar verebilirler. Standart deney derlemlerinin yapılan araştırmaların düzeyini yükseltici olumlu etkisi literatürde kanıtlanmış bir gerçektir. [Voorhees, 2005].
Haber Kaynakları
Deney derleminin hazırlanmasında Web’deki aşağıdaki haber kaynaklarından yararlanılmış ve bu kaynaklardaki 2005 yılına ait saat ve dakika damgalı bütün haberler indirilmiştir.

Haberlerin kaynaklar arasındaki dağılımı.
Bu haber kaynakları
- Verdikleri haberleri gün bilgisine ek olarak yayınlanma zamanını
da istenilen ayrıntıyla (saat, dakika.) vermektedir, haberin
yayınlanma zamanı YOBİ işleminde önemlidir. Yararlanılan kimi haber kaynaklarında bu durum “son dakika” vb. gibi haberler için geçerli olabilmektedir, bu gibi durumlarda sadece bu türden ayrıntılı zaman bilgisi içeren haberler deney derlemine dahil edilmiştir,
- Farklı düşünce yapılarını temsil etmektedirler; örneğin, CNN Türk, CNN International ile olan bağlantısından ötürü Amerikanvari bir haber verme biçimini yansıtmaktadır, Milliyet Gazetesinin gelişimci bir dünya görüşünü yansıttığı söylenebilir, TRT bir devlet kurumudur, Zaman Gazetesinin muhafazakâr bir görüşü temsil ettiği söylenebilir. Haber 7 ise kullanılan haber kaynaklarını zenginleştirmekte ve bir çeşitlilik sağlamaktadır. Farklı görüşlere sahip oldukları söylenebilecek kaynaklar kullanarak, haberlerin çeşitli yönlerini yakalayabilecek bir sistemin özelliklerinin geliştirilecek yaklaşımlara yansıtılması amaçlanmaktadır.
Derlemdeki haberlerle ilgili özet bilgi
Haber Kaynağı |
Haber Sayısı |
Yüzde Katkısı |
İndirilen Bilgi (MB) |
Ayıklanmış Bilgi (MB) |
Yaklaşık Kelime Sayısı |
CNN Türk |
23.644 |
11,3 |
1008,3 |
66,8 |
271 |
Haber 7 |
51.908 |
24,8 |
3629,5 |
107,9 |
238 |
Milliyet Gazetesi |
72.233 |
34,5 |
508,3 |
122,5 |
218 |
TRT |
18.990 |
9,1 |
937,9 |
18,3 |
121 |
Zaman Gazetesi |
42.530 |
20,3 |
45,3 |
33,7 |
97 |
Derlemin Tümü |
209.305 |
100,0 |
6129,3 |
349,2 |
200 |
Derlemin oluşturulmasına 39 kullanıcı katkıda bulunmuştur. Kullanıcıların çok olması derlemin sağlıklı olması açısından da önemlidir. Her bir profil için ortalama 114 dakika harcanmıştır. En fazla “şiddet ya da savaş haberleri” ile ilgili profil bulunmaktadır. Bu türü “Ünlüler/İnsanlarla ilgili haberler”
ve “Kazalarla ilgili haberler” izlemektedir. Şu anda sistemde değerlendirilmiş ve kontrol edilmiş 80 profil yer almaktadır.
Profiller hakkında detaylı bilgi için tıklayınız. (İstatistikler)
Derlemin hazırlanışı ve derlem hakkındakı detaylı bilgi için aşağıdaki makaleden faydalanabilirsiniz.
Türkçe Haberlerde Yeni Olay Bulma ve İzleme: Bir Deney Derleminin
Oluşturulması [PDF]
Referanslar
Allan, J., Papka, R.,Lavrenko, V.. On-line new event
detection and tracking. In Proceedings of the 21st annual
international ACM SIGIR conference on Research and development in
information retrieval, pages 37-45, Melbourne, Australia, 1998. ACM
Press.
Voorhees, E. (2005). TREC: Improving information access through evaluation. Bulletin of the American Society for Information Science and Technology, 32.
Witten, I. H., Frank, E. (2000). Data mining: Practical machine learning tools and techniques with Java implementations. San Francisco Morgan Kaufmann.
Derlemi edinmek
Derlemi edinmek için bağlantıda verilen formu doldurup aşağıdaki
iletişim bilgileri aracılığıyla bize ulaştırınız.
Koleksiyon kullanımı ile ilgili başvuru formu [PDF]
İletişim Bilgileri
Bilkent Bilgi Erişim Grubu
Bilgisayar Mühendisliği Bölümü
Bilkent Üniversitesi
06800 Ankara
Türkiye
Fax: +90 (312) 266 4047
E-Posta:canf [at] cs.bilkent.edu.tr