İnternet’deki verinin boyutu çok hızlı bir şekilde artmaktadır. Bunun için İnternet üzerindeki verilere doğru ve hızlı bir şekilde erişmek önemli bir ihtiyaç haline gelmiştir. Kullanıcıların bilgiye erişme isteklerini karşılamak için hazırlanan bir takım çözümler vardır. Bunlar arasında; İnternet arama motorları, elektronik kütüphane sistemleri, kurumsal arama ve masaüstü arama gibi bilgiye erişim sistemleri sayılabilir. Arama, bilgiye erişim sistemlerinin temel görevi olmakla birlikte; metin gruplandırma, metin sınıflandırma, özetleme, bilgi çıkarımı ve çoklu ortam bilgisine erişim gibi pek çok araştırma alanıyla da ilgilidir.
Bir bilgiye erişim sisteminin temel hedefi, kullanıcıya sorgusuyla ilgili mümkün olduğunca çok doküman seçmesi, ilgili olmayan dokümanlar da mümkün olduğunca seçmemesidir. Bir arama motoru mimarisi tasarlanırken, kullanıcı sorgularına karşılık en çok ilgili dokümanların sunulması ile birlikte sorguların mümkün olduğu kadar hızlı bir şekilde işlenmesi de amaçlanmaktadır. Arama kalitesini ölçmek için kullanıcıların kullandığı sorgu bilgileri veritabanında tutulmaktadır. Kullanıcının sorgusuna veritabanında cevap olarak gelen arama sonuç sayfasının kayıtları ve kullanıcının tıkladığı bağlantıların kaydı veritabanında tutulmaktadır.
Bir arama motorunun sonuçlarının kalitesi değerlendirilirken, kesinlik (precision) ve duyarlık (recall) olmak üzere iki temel ölçüt kullanılır. Bu iki ölçüte dayanarak F-Score ve Mean Average Precision (MAP) gibi türev ölçütler de kullanılabilir.
Kesinlik, getirilen bilginin ne kadarının, istenilen bilgiyle ilgili olduğunu ölçerken, duyarlık ise getirilmesi gereken bilginin ne kadarının getirildiğini ölçmektedir. F-Score ise, kesinlik ve duyarlık için harmonik ortalama hesaplamasıdır. MAP ise, tüm kesinlik ortalamaların toplamı ile elde edilir.
sayfalar
F-Score ise, kesinlik ve duyarlık için harmonik ortalama hesaplamasını gösterir.
Recall(i) i)
Precision(
Recall(i)
* i) Precision(
* 2 Score(i)
F (6.3)
Burada i bağlantının olduğu sırayı göstermektedir. F-Score değerinin yüksek olması sunulan sonuçların hemen hemen tamamının sorgu ile ilgili olduğunu, F-Score değerinin düşük olması sunulmayanların hemen hemen tamamının ilgili olmadığını göstermektedir.
Bilginin geri kazanılması konusunda farklı algoritmalar kullanılmaktadır. Bunları karşılaştırmak amacıyla kullanıcının sorgusu ile ilgili gelen sonuçların tüm kesinlik değerlerinin ortalamasını elde etmek için ortalama kesinlik değeri kullanılmaktadır.
sayısı kesinlik için
sorgu İlgili
toplamı
kesinlik için
sorgu
P
avg Bir (6.4)Kesinlik ve duyarlık hesaplama yöntemi Şekil 6.1’de gösterilmektedir.
Sorguyla ilgili olup gelmeyen sayfalar (False Negative)
Sorguyla ilgisi olmayan ve sonuç sayfasında gelmeyen sayfalar (True Negative)
Sorguyla ilgisi olan ve sonuç sayfasında gelen sayfalar (True Positive)
Sorguyla ilgisi olmayan ve sonuç
sayfasında gelen sayfalar (False Positive) Şekil 6.1. Kesinlik ve duyarlık için dört farklı durum
Kesinlik, sunulan sayfaların içerisinde hangi oranda ilgili olduğunu göstermektedir.
Duyarlık ise, sorgu ile ilgili olanların ne kadarının sunulan listede yer aldığını göstermektedir.
Sıralama algoritmasının performansını test edebilmek için kullanılan bir diğer ölçüt ise MAP testidir. MAP testi, kesinlik ortalama ile elde edilen tüm toplam değerlerin ortalamasıdır.
Bir arama motoru, indeksleme ve arama olmak üzere iki temel bileşenden oluşturmaktır.
Orijinal sunucudan alınan Web sayfaları indekslenerek aranılabilir hale getirilir ve sonra kullanıcının sorgusuna göre bu indeks üzerinde arama yapılabilir.İndeks işleminin temel bileşenleri, ilgili etiketlerden metin alma, metin dönüştürme, kelime ayrıştırma, kelime kökü bulma ve indeks oluşturmaktır. Geliştirilen Web sıralama algoritmasında indeks biriminin temel yapısı Şekil 6.2’de verilmiştir.
Web
Şekil 6.2. Geliştirilen arama motorunda indeksleme işlemi
İlgili etiketlerin bulunma işlemi, hangi etiketin alınacağına karar verir. İlgili etiket bulunduktan sonra içindeki kelimeler bir liste halinde hazırlanır. Kelime ayırma ve kök bulma işlemi, elde edilen kelimeleri eklerinden ayırma ve kelimenin kökünü bulma
işlemlerini Zemberek kök bulma kütüphanesini kullanarak yapar. Kelimelerin bulunduğu yere göre indeksleme ve puan hesaplama işlemi, dönüştürülen kelimeyi kullanarak hızlı aramayı sağlayacak indeks veya kelimeler arası bağlantıyı oluşturmaktadır. Uygulanan işlemler tamamlandıktan sonra kelime listesi veritabanına kaydedilmektedir. Şekil 6.3’te metin arama aşamaları verilmiştir.
PAGE_TITLE LINK_URL
CONTENT_TITLE
CONTENT_KEYWORDS CONTENT_DESCRIPTION
CONTENT
Kullanıcı Sorgu Arama
Sıralama
. . . .
Sonuç listesi
Şekil 6.3. Metin arama aşamaları
Arama yapılırken sorguyla bulunan kelimelerin aranması gereken etiketlerin en çok ilgili olan ilk sırada getirilmektedir. Bunun için Web sayfasındaki ilgili etiketlerin içeriğinde sorgudaki kelimelerin bulunma durumuna göre puan hesaplanır. Etiketlerin önemine göre en az puandan en yükseğe doğru bulduğu sayfaları hafızada sıralamaktadır. Eğer kullanıcı tarafından kullanılan sorgu birden fazla kelime içeriyorsa, bulduğu sayfaları puanına göre arama sonuç sayfasında sıralayacaktır. Sorguda bulunan kelimelerin farklı etiketlerde bulunma durumuna göre listedeki yeri değişmektedir. Şekil 6.4’te metin arama işlemi görülmektedir.
Günümüzde, İnternet üzerindeki bilgiler gittikçe hızlı bir şekilde artarak karmaşık hale gelmektedir. Bu nedenle bu bilgilere doğru, hızlı ve kullanıcının isteğine en yakın sonuçları getirmek ve olabildiği kadar kullanıcının sorgusuyla ilgili olmayan Web sayfalarını getirmemek, arama motorlarının temel amacı olmuştur. Bir arama motoru veya sıralama algoritması tasarlanırken, kullanıcının aramak istediği sorguya karşılık en ilgili Web sayfalarını getirmesi ve sorgunun mümkün olduğu kadar hızlı bir şekilde işlenmesi hedeflenmektedir. Arama kalitesini ölçmek için arama motorları kullanıcıların kullandığı sorgu kayıtlarının tutulması gerekir.
Güncel Spor Haberleri
güncel
spor
haber
LINK_URL
CONTENT_TITLE
CONTENT_KEYWORDS
CONTENT_DESCRIPTION PAGE_TITLE
CONTENT
Kelimenin URL_TITLE puanı
Kelimenin CONTENT_TITLE puanı
Kelimenin CONTENT_KEYWORDS
puanı
Kelimenin CONTENT_DESCRIPTION
puanı Kelimenin PAGE_TITLE puanı
Kelimenin CONTENT puanı
Sıralama Kelime ayrıştırma İlgili etiketlerin içinde
yan yana geçme sıklığı
İlgili etiketlerin içinde kelimelerin puanı
Etiket önemine göre aranan kelimelerin uzaklığı (yakından uzağa)
Şekil 6.4. Metin arama işlemi
Kullanıcının sorgusuna cevap olarak gelen arama sonuç sayfasının kayıtları ve kullanıcının tıkladığı bağlantıların kaydı veritabanında tutulmaktadır.
Tez kapsamında Web tarama işlemi için kullanılan veri seti Çizelge 6.1’de sunulmuştur.
Yapılan literatür araştırma sonucunda Web tarama işlemini gerçekleştirmek için farklı tohum URL adresleri kullanılmıştır. Türkçe ve İngilizce olmak üzere iki dilde tohum URL adresleri alınmıştır.
Çizelge 6.1. Veri seti biriktirmek için kullanılan tohum URL adresleri
URL Adresleri Türü Dili
https://onedio.com/ Haber Türkçe
http://www.ensonhaber.com/ Haber Türkçe http://www.milliyet.com.tr/ Haber Türkçe http://www.sabah.com.tr/ Haber Türkçe http://aa.com.tr/en Haber İngilizce http://www.hurriyet.com.tr/ Haber Türkçe http://www.trthaber.com/ Haber Türkçe http://www.internethaber.com/ Haber Türkçe http://www.mynet.com/ Haber Türkçe http://www.aorhan.com/ Blog Türkçe http://www.benlacivert.com/ Blog Türkçe http://www.egonomik.com/ Teknoloji Türkçe http://www.spaksu.com/ Blog Türkçe https://yoldaolmak.com/ Teknoloji Türkçe http://gezipgordum.com/ Turizm Türkçe http://www.haberler.com/ Haber Türkçe http://www.ntv.com.tr/ Haber Türkçe http://shiftdelete.net/ Teknoloji Türkçe http://www.cnnturk.com/ Haber Türkçe http://www.webtekno.com/ Teknoloji Türkçe http://www.ntvspor.net/ Spor Türkçe https://stackoverflow.com/ Teknoloji İngilizce
Tohum olarak alınan URL adresleri, kendi dili ve türü içinde yaygın ve çok ziyaret edilen Web siteleridir. Ayrıca, kullanılan tohum URL adresleri, düzgün HTML etiketi kullandıkları için yapılacak olan işlemler kolaylaşmaktadır.
Tez kapsamındaki çalışmalarda Dell R720 E5-2620, 21 GB RAM ve 200 GB SSD disk özelliğe sahip bir sunucu kullanılmıştır. Geliştirilen algoritmalar www.hookq.com adresinde yayınlanarak testler yapılmıştır.
Geliştirilen Web tarama robotu çalıştırıldıktan sonra veri setinde bulunan tohum URL adresleri kuyruktan FIFO yaklaşımıyla alınarak tarama işlemine başlanmaktadır. Geliştirilen algoritmada öncelikli kuyruk yapısı kullanılmıştır. Bu kuyruk yapısında, orijinal sunucudan alınması hedeflenen URL adresleri aldıkları puana göre kuyruğa ilgili konuma yerleştirilmiştir. Bir sonraki tohum URL adresin seçiminde kuyruktaki maksimum puana sahip olan URL adresi kullanılmıştır. Web tarama işleminin daha hızlı çalışmasını sağlamak için multithread kullanarak tarama işlemi gerçekleştirilmiştir.
Genel olarak Web tarama uygulamalarının sınır yapısında bekleyen URL sayısı yüz milyonlarca URL adreslerinden oluşabilmektedir. Bunun için URL adreslerinin yerel sunucuya kaydedilmesi gerekmektedir. Geliştirilen Web tarama algoritmasının bir hafta çalıştırılmasıyla 506.976 Web sayfası orijinal sunuculardan alınmıştır. Orijinal sunucudan alınan Web sayfalarının içinde 473.632 benzersiz Web sayfası, HTTP durum hataları ve diğer hatalardan dolayı orijinal sunucudan alınamayan Web sayfalarının sayısı ise 33.344 olmuştur. Çizelge 6.2’de deney sonuçları sunulmuştur.
Çizelge 6.2. Deney sonuçları
URL türü URL adresi
sayısı
Oran(%)
Benzersiz orijinal sunucudan alınan Web sayfaları 473.632 93,42 Orijinal sunucudan alınamayan/erişilmeyen Web sayfaları 33.344 6,58 Toplam orijinal sunucudan alınan Web sayfaları 506.976 100,00
Web tarama işlemi süresince çeşitli nedenlerden dolayı toplam 33.344 URL (%6,58) orijinal sunucudan alınmamıştır.
Çizelge 6.3’te orijinal sunucudan alınamayan Web sayfalarının hata tipleri, sayısı ve oranı verilmiştir.
Çizelge 6.3. Orijinal sunucudan alınamayan bağlantıların hata tipleri, sayısı ve oranı HTTP durum hatası URL sayısı Oranı(%)
4xx 32.787 98,34
5xx 533 1,60
9xx 9 0,02
Diğer hata türleri 15 0,04
Çizelge 6.3’te 4xx Web sayfasının durum hataları, istemci hatası, 5xx, Web sayfasını barındıran sunucu hatası, 9xx Web tarama robotunun Web sayfasının sunucusuyla doğru bir şekilde bağlantı kurmama durumu gösterilmektedir.
Çizelgede, HTTP durum hatalarından olan 4xx için URL sayısı 32.787 oranı ise %98,34 olmuştur. Hata durumu 5xx için URL sayısı 533 oranı ise %1,6 olmuştur. Hata durumu 9xx için URL adres sayısı 9 oranı ise %0,02 olmuştur. Diğer hatalar için URL adres sayısı 15 oranı ise %0,04 olmuştur. Elde edilen sonuçlara göre 4xx hatalarının diğer hatalara göre daha yüksek olduğu görülmüştür.
Şekil 6.5. Orijinal sunucudan alınamayan URL adreslerinin hata tipleri
98,34
1,60 0,02 0,04
0 10 20 30 40 50 60 70 80 90 100
4xx 5xx 9xx Diğer hatalar
Oran(%)
HTTP hata tipleri
Şekil 6.5’te, orijinal sunucudan alınamayan URL adreslerin hata tiplerinin oransal dağılım grafiği verilmiştir. Orijinal sunucudan alınamayan ve HTTP durum hatasından kaynaklanan hataları incelemek için, HTTP hata durumları ayrıştırılmıştır.
Hata durumları detaylı bir şekilde Çizelge 6.4’te, grafik gösterimi ise Şekil 6.6’da verilmiştir.
Çizelge 6.4. Detaylı HTTP durum hatası dağıtımı HTTP durum hataları Sayı Oran(%)
404 16.874 50,600
429 15.735 47,180
503 335 1,000
500 197 0,590
403 97 0,290
400 69 0,200
401 9 0,020
999 9 0,020
408 2 0,005
416 1 0,002
502 1 0,002
Çizelge 6.4’te, 400 hatası yapılan isteğin hatalı olduğunu, 401 hatası istek için kimlik doğrulaması gerektiğini, 403 hatası kaynağın yasaklandığını, 404 hatası istek yapılan kaynağın veya sayfanın bulunamadığını, 408 hatası istek zaman aşımına uğradığını, 416 hatası istenilen kaynak istenilen medya tipini desteklemediğini, 429 hatası sunucu çok fazla istek aldığını, 500 hatası sunucuda bir hata oluştuğu ve istek karşılanamadığını, 502 hatası ağ geçidi veya vekil sunucusu kaynağın bulunduğu sunucudan cevap alamadığını, 503 hatası sunucu şu anda hizmet vermediği veya sunucuya erişilemediğini, 999 hatası istek reddedildiğini göstermektedir.
Çizelge 6.4’te görüldüğü gibi, %50,60 oranında “404” hata kodundan kaynaklanan 16.874 Web sayfası orijinal sunucudan alınamamıştır. Bu da Web tarama işlemi yapılırken ziyaret edilen hatadan dolayı alınamayan Web sayfalarının %50,60 oranında yayımdan kalkmış
olduğunu ya da gezilen Web sayfalarının sahiplerinin bu URL adreslerini güncellemediklerini göstermektedir.
Şekil 6.6. Detaylı HTTP durum hatası dağılımı
Hatadan dolayı orijinal sunucudan alınamayan Web sayfalarında “429” hata koduna sahip sayfa sayısı 15.735 olup; %47,18 oranındadır. Bu da Web tarama işlemi yapılırken ziyaret edilen sayfaların önemli bir kısmının sunucu tarafından izin verilmediği için alınmadığını göstermektedir.
Çizelge 6.5’te, öncelikli kuyruk yapısında Interlink ve Intralink özeti verilmiştir. Çizelge 6.5’te, rastgele bir gün için saat bazında orijinal sunuculardan alınan Interlink ve Intralink sayısı görülmektedir.
Çizelgede orijinal sunucudan alınan Intralink’lerin artışı, kullanılan tohum URL adreslerinin içinde bulunan Intralink türünün Interlink türüne göre daha fazla olduğu gösterilmektedir.
Bu yüzden orijinal sunucudan alınan Intralink’lerin sayısı, Interlink’lerin sayısından daha fazla olduğu gösterilmektedir.
Şekil 6.7’de öncelikli kuyruk yapısında bulunan Interlink ve Intralink sayısının zamana göre değişim grafiği verilmiştir.
50,60
47,18
1,00 1,13
0 10 20 30 40 50 60
404 429 503 Diğer hatalar
Oran (%)
HTTP durum hataları
Çizelge 6.5. Öncelikli kuyruk yapısında Interlink ve Intralink özeti
Süre(Saat) Intralink Interlink
1 9.846 311
2 14.072 48
3 14.142 36
4 14.031 30
5 14.067 34
6 13.854 34
7 13.712 45
8 13.585 25
9 13.828 32
10 13.459 20
11 13.272 22
12 13.781 31
13 13.719 23
14 13.621 26
15 13.052 6
16 13.065 28
17 12.537 37
18 12.590 10
19 12.927 55
20 13.712 45
21 13.828 32
22 13.272 22
23 13.719 23
24 13.052 6
Orijinal sunucudan alınan Web sayfalarında aynı alan adına yönelik bağlantıların çok daha fazla kullanıldığı görülmektedir.
Şekil 6.7’deki veriler herhangi bir gün için saat bazında alınmıştır.
Şekil 6.7. Öncelikli kuyruk yapısında Interlink ve Intralink sayısı
Öncelikli kuyruk yapısının içinde bulunan Interlink sayısı Şekil 6.8’de verilmiştir.
Şekil 6.8. Öncelikli kuyruk yapısının içindeki Interlink sayısı
Şekilde, herhangi bir gün için saat bazında orijinal sunuculardan alınan Intralink sayısı görülmektedir. Şekilde, Intralink’lerin ilk saatinde 300 URL adres orijinal sunucudan alınmıştır. Ancak, ilerleyen saatlerde orijinal sunucudan alınan Interlink sayısı 50 URL adresinin altına düştüğü görülmektedir. Bu da, kullanılan tohum URL adreslerinin içinde bulunan Intralink türünün Interlink türüne göre daha fazla olduğu gösterilmektedir. Genel olarak orijinal sunuculardan alınan ve bulundukları alan adlarına bağlı olan Web sayfaların
0 2000 4000 6000 8000 10000 12000 14000 16000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Bağlantı sayısı
Süre (Saat)
Intralink Interlink
0 50 100 150 200 250 300 350
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Bağlantı sayısı
Süre (Saat)
Interlink
sayısı fazla olduğu için, Intralink olan Web sayfaların sayısı daha fazladır. Aynı zamanda orijinal sunuculardan alınan ve bulundukları alan adlarından farklı alan adlarına bağlı olan Web sayfaların sayısı az olduğu için, Interlink olan Web sayfaların sayısı da daha azdır.
Şekil 6.9’da herhangi bir gün için saat bazlı orijinal sunucudan alınan bağlantı sayısı verilmiştir.
Şekil 6.9. Orijinal sunucudan Web sayfalarını alma hızı
Şekil 6.10. Bağlantıların orijinal sunucudan alınma hızının saatlere göre dağılımı
0 2000 4000 6000 8000 10000 12000 14000 16000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 23 24
Bağlantı sayısı
Süre (Saat)
0 50 100 150 200 250 300
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Bağlantı sayısı
Süre (Saat)
MIN MAX AVG
Grafikte görüldüğü gibi, Web tarama işleminin ilk çalışma saatinde 10.000 sayfa alınmıştır.
Saniyede ortalama 2,77 Web sayfası ziyaret edilmiştir. Daha sonra Web tarama işleminin hızı artarak saatte 14.000 sayfa ve saniyede 3,88 sayfa olmuştur. İlerleyen zaman içerisinde, Orijinal sunucudan alma hızı kararlı hale gelmiştir.
Geliştirilen Web tarama algoritmasında orijinal sunucudan alınan bağlantıların minimum, maksimum ve ortalama hızını öğrenmek, kullanılan sunucunun performans ölçümü açısından önemlidir. Şekil 6.10’da herhangi bir gün için saat bazlı minimum, maksimum ve ortalama bağlantıların hız grafiği verilmiştir. Şekil 6.9’dakine benzer şekilde Şekil 6.10’da da görüldüğü gibi, Web tarama işleminin ilk saatinde orijinal sunucudan alma hızı belirli bir noktadan sonra yükselmektedir. Bu yüzden Şekil 6.10’da Web tarama robotu işleminin ilk saatinde orijinal sunucudan alınma hızı saatte minimum 100 Web sayfası iken, günün ilerleyen saatlerinde saat başı orijinal sunucudan alınma hızı minimum 200 sayfaya kadar çıkmıştır.
Aynı zamanda orijinal sunucudan alınma hızı saatte maksimum 250 sayfaya yakın iken, günün ilerleyen saatlerinde bu sayının üstüne çıkmıştır. Saatte ortalama 190-220 orijinal sunucudan bağlantı alma hızına ulaştığı görülmektedir. Web tarama işleminin hızını etkileyen bir takım faktörler vardır. Bunlar, daha önce bahsedilen HTTP durum hatalarının yanı sıra, orijinal sunucudan alınan Web sayfalarının boyutlarıdır.
Şekil 6.11. Orijinal sunucudan alınan sayfaların boyutları
338099
1328 2359
124328
1946 3599 25023 18505 20045 21043
307336
0 50000 100000 150000 200000 250000 300000 350000
İndirilen sayfa sayısı
İndirilen sayfaların boyutları (KB)
Şekil 6.11’de orijinal sunucudan alınan Web sayfalarının boyutları gösterilmektedir. Orijinal sunucudan alınan Web sayfalarının boyutları 100 KB aralıklarla gruplanarak sunulmuştur.
Grafiğe göre, sayfa boyutu 100 KB’tan daha küçük olanlar ile 1 MB ve üzeri olanlar çok sık indirilmiştir. Sonuç olarak, Web sayfalarının boyutu arttıkça Web tarama işleminin hızında da azalma olmaktadır. Şekil 6.12’de, orijinal sunucudan alınan büyük boyuttaki Web sayfalar verilmiştir.
Orijinal sunucudan alınan Web sayfalarının boyutları 100 KB aralıklarla gruplanarak sunulmuştur. Grafiğe göre, sayfa boyutu 100 KB’tan daha küçük olanlar ile 1 MB ve üzeri olanlar çok sık indirilmiştir.
Sonuç olarak, Web sayfalarının boyutu arttıkça Web tarama işleminin hızında da azalma olmaktadır. Şekil 6.12’de, orijinal sunucudan alınan büyük boyuttaki Web sayfalar verilmiştir.
Şekil 6.12. Orijinal sunucudan alınan büyük boyuttaki Web sayfalar
Şekilde, orijinal sunucudan alınan Web sayfalarının boyutları 1 MB aralıklarla gruplanarak sunulmuştur. Şekilde, 1 MB boyutunda olan 125.649 Web sayfası orijinal sunuculardan alınmıştır. Bu da orijinal sunuculardan alınan büyük boyuttaki Web sayfaların toplam sayısının yaklaşık 1/3 oranına sahip olduğu görülmektedir. Web sayfalarının boyutlarının artması, Web tarama robotunun hızını etkilemektedir.
125649
44850
28604
17556
8957 10709 11764 8025 5144
46078
0 20000 40000 60000 80000 100000 120000 140000
1 2 3 4 5 6 7 8 9 10 ve
üzeri
İndirilen sayfa sayısı
İndirilen sayfarın boyutları (MB)
Geliştirilen Web tarama algoritmasında orijinal sunucudan alınan Web sayfaları türlerine göre ayırt edilmiştir. Çizelge 6.6’da, orijinal sunucudan alınan sayfaların ülke alan adlarının oranı verilmiştir.
Çizelge 6.6.Orijinal sunucudan alınan sayfaların ülke alan adlarının oranı Alan adı Oran(%)
.id 49,23
.co 17,35
.tr 16,15
.uk 12,65
.io 2,11
.de 1,64
Diğer 0,87
Çizelge 6.6’da görüldüğü gibi, Web tarama işlemi boyunca en çok orijinal sunucudan alınan ülke alan adı uzantısı Endonezya .id, Kolombiya .co, Türkiye .tr ve Birleşik Krallık .uk gibi ülkelere ait Web sayfalarıdır. Çizelge 6.7’de, orijinal sunucudan alınan sayfaların alan adlarının oranı verilmiştir.
Çizelge 6.7. Orijinal sunucudan alınan sayfaların alan adlarının oranı Alan adı Oran(%)
.com 99,85
.org 0,10
.club 0,03
.net 0,01
Diğer 0,01
Çizelgede görüldüğü gibi, Web tarama işlemi boyunca en çok orijinal sunucudan alınan alan adı uzantısı .com, .org, .club ve .net gibi alanlardan oluştuğu görülmektedir.
Geliştirilen Web tarama algoritmasında sayfaların içinde bulunan Interlink ve Intralink sayısına göre puan dağıtıldığı için ilk başlangıç tohum URL adreslerinden sonra olabildiği
kadar farklı alan adına erişilmiştir. Bu da geliştirilen puanlama hesabına ve Interlink ile Intralink ayrımının başarılı olduğunu göstermektedir.
Orijinal sunucudan alınan Web sayfaları ters indeks yaklaşımı kullanılarak saklanmıştır.
Orijinal sunucudan alınan Web sayfalarına indeks işleminin uygulanması için bir takım ön işlemler yapılmıştır. İndeklenen Web sayfalarının içinde bulunan kelimeler öncelikle kökü alınarak veritabanına kaydedilmiştir. Daha sonra, Web sayfasının içinde bulunan bağlaçlar silinmiştir. Geliştirilen Web tarama algoritması ile ziyaret edilen Web sayfalarının içindeki bağlantılar elde edilirken sayfa ile ilgili meta-tag ve diğer içerik bilgileri de alınmıştır.
Veritabanı olarak MySQL kullanılmıştır.
Geliştirilen sıralama algoritmasının performansı PageRank ve HITS algoritmaları ile karşılaştırılmıştır. Kullanılan PageRank sıralama algoritması, Web sayfalarının sıralanması için sürekli sayfaların sıralamasını etkileyecek farklı faktörler eklemektedir. Ancak, PageRank sıralama algoritmasının en önemli özelliği, bağlantı analizine dayalı sıralama yapmasıdır. PageRank sıralama algoritması hesaplama yöntemini açıklamadığı için bilinen kısım alınarak bu çalışmada kullanılmıştır. Günümüzde, PageRank algoritması 200’den fazla sıralama faktörünü kullanarak Web sayfalarının sıralamasını değerlendirmektedir.
Ancak, bu faktörlerin hangi oranda ağırlıklandırıldığı bilinmediği ve sürekli değiştiği için bu tezde karşılaştırma amaçlı olarak bağlantı analiz kısmı kullanılmıştır. Algoritma başarısını test edebilmek için gerçek kullanıcılar tarafından test işlemi yapılmıştır. Test edecek kullanıcıların belirlenmesi için öncelikle LinkedIn üzerinde bir bilgilendirme mesajı gönderilmiştir. Bilgilendirme mesajında testin amacı, testin nasıl yapılacağı, taranan sayfaların hakkında bilgiler ve yapacakları arama kapsamından Türkçe ve İngilizce olmak üzere iki farklı dilde detaylı bilgiler verilmiştir. Test için kullanıcılarla paylaşılan Türkçe mesaj EK-1’de, İngilizce mesaj ise Ek-2’de verilmiştir.
Geliştirilen HookQ sıralama algoritması ile PageRank ve HITS sıralama algoritmalarını test edebilmek için her sorgu aşamasında kullanıcı fark etmeden sırasıyla üç sıralama algoritmalarından biri seçilmiştir. Bu yüzden kullanıcının her yaptığı sorguda farklı sıralama algoritması devreye girip sonuçları o anki algoritma ile sunulmuştur. Uygulamanın sonuçları üç günlük test işlemi ile elde edilmiştir. Bu süre içerisinde 374 kullanıcı arama yapmış; 730
Geliştirilen HookQ sıralama algoritması ile PageRank ve HITS sıralama algoritmalarını test edebilmek için her sorgu aşamasında kullanıcı fark etmeden sırasıyla üç sıralama algoritmalarından biri seçilmiştir. Bu yüzden kullanıcının her yaptığı sorguda farklı sıralama algoritması devreye girip sonuçları o anki algoritma ile sunulmuştur. Uygulamanın sonuçları üç günlük test işlemi ile elde edilmiştir. Bu süre içerisinde 374 kullanıcı arama yapmış; 730