Sammen drag Mål med tiltaket - KONSEPTER FOR STASJONSTILTAK

8. UTREDNING KONSEPTER

8.2 KONSEPTER FOR STASJONSTILTAK

8.2.1 Sammen drag Mål med tiltaket

Veri madenciliği ile ilgili çalışmaları verilerin sınıflandırılması, kümelenmesi ve birliktelik kuralları, web madenciliği ve metin kategorizasyonu alanlarında incelemek mümkündür.

Freitas, veri madenciliğinde genetik programlama (GP) ve genetik algoritma gibi evrimsel algoritmaların bir literatürünü sunmuş, sınıflandırma tipli problemlerde odaklanmıştır (Freitas, 2002). Ayrıca sınıflandırma için bir GP yapısı önermiş ve kural indirgemede genelleştirmiştir (Freitas 1997). Daha sonra Carvalho ve Freitas, sınıflandırma kurallarının keşfi için hibrit karar ağacı/genetik algoritma yaklaşımı önermişlerdir (Carvalho ve Freitas 2002).

Zhou ve ark. (2003), Ferreira tarafından bir lineer genetik programlama yaklaşımı olarak önerilen Gen İfade Programlama (GEP) ya göre sınıflandırma kurallarını içeren yeni bir yaklaşım sunmuşlardır. Ayrıca gen yapısında Ferreira’dan farklı olarak genin baş kısmının uzunluğunu sabit tutmamışlardır. Literatürden alınmış 12 veri kümesi üzerinde yaklaşımlarını test etmişler ve %20’lik bir iyileşme sağlamışlardır.

De Falco ve ark. (2002), sınıflandırma kurallarının otomatik keşfini yapabilen bir genetik programlama yapısı geliştirmişlerdir. Başlangıç olarak bir kural popülasyonu oluşturmuşlar ve genetik operasyonları (çaprazlama, kopyalama, mutasyon) her sınıfa bir kural düşene kadar uygulamışlardır. Algoritmalarını, önceden %75’ini eğitim ve

%25’ini test seti olarak belirledikleri Proben1 veri setinde denemişlerdir. Çalışmalarını

yapay sinir ağları ve diğer genetik algoritmalarla karşılaştırmışlar ve düşük standart sapma göstermesi açısından çalışmalarının dayanıklılığını kanıtlamışlardır.

Sınıflandırmada uygulanan diğer tekniklerden medikal alanda da oldukça faydalanılmaktadır. Tan ve ark. (2002), medikal teşhiste kullanılabilmesi için sınıflandırma kuralları çıkaran iki aşamalı hibrit bir evrimsel sınıflandırma tekniği geliştirmişlerdir. İlk aşamada, GP ve GA evrimsel algoritmaları kullanılarak uygun aday kuralları belirlenmiş, ikinci aşamada doğru ve karşılaştırılabilir kural kümeleri yapısı elde etmek için bu aday kuralların sayısı ve farklı sıraları birleştirilmiştir. Delesie ve Croes (2000) bir sağlık sigortası veritabanından yararlanarak doktorların kalp ve damar hastalıkları alanındaki performansını ülke çapında değerlendiren bir veri madenciliği yaklaşımı sunmuşlardır.

Baykasoglu ve Özbakır (2007) veri madenciliği problemleri için yeni bir sınıflandırma tekniği olarak miner algoritmasını geliştirmişlerdir. MEPAR-miner algoritması, sınıflandırma kurallarının keşfi için orijinal Çoklu İfade Programlama (MEP) Algoritması’nın modifiye edilmesiyle oluşturulmuştur. Orijinal MEP kromozom gösteriminde, fonksiyon ve terminal kümeleri yeniden düzenlenerek tekrar tasarlanmış ve sınıflandırma kurallarını gösteren mantıksal ifadeler oluşturulmuştur. Algoritma C++ ortamında geliştirilmiş, 9 veri setinde denenmiş ve

%90 doğruluk oranı elde edilmiştir.

Veri sınıflama alanında tümevarımcı mantıksal programlama (ILP) terimi ilk kez Muggleton (1992) tarafından ortaya atılmıştır. Burada çoklu sınıfların tahminini ikili problemler şeklinde ele almışlardır. Ancak, sınıflar ayrık ve büyük olduğu için, öğrenilmiş kurallarla birden fazla veya hiçbir sınıf tahmin edilme durumu gösterilmemiştir (Ali ve Pazzani 2003).

Metin sınıflandırması alanında, Andrade ve Bork (2000) metin kategorizasyonu için moleküler biyoloji alanda literatürden yararlı bilgiler çıkartmak amacıyla bir veri madenciliği algoritması kullanmıştır.

Lawrie, Croft ve Rosenberg (2001) farklı hiyerarşi modellerini, dökümanları sınıflandırmak için karşılaştırmışlar ve ‘dominating set technique’ dayalı yaklaşımın, diğer konu hiyerarşisi oluşturma yöntemlerine nazaran daha iyi sonuçlar sağladığını belirtmişlerdir.

Liu ve arkadaşları (2004) sorguları sınıflandırmak için Destek Vektör Makineleri (DVM) yöntemini kullanmıştır. Sorguların bazı sözdizimsel özellikleri: cümlenin uzunluğu, her kelimedeki ortalama karakter sayısı, her bir kelimedeki ortalama hece sayısı bu sorguların sınıflandırılmasında kullanılmıştır. Sonuçlar DVM yönteminin sorguları tanımada %80 ve hatta %80’den de fazla oranda başarılı olduğunu göstermiştir.

Berry (2004) ve Miller (2005) metin madenciliği alanında da çalışmalar yapmışlar, Berry (2004) bu alan ile ilgili kümeleme, sınıflama, bilgi çıkarma, yeniden kullanma ve eğilim tespiti konularına kitabında yer vermiştir.

Kümeleme alanında yapılan çalışmalardan, Michalski ve Stepp (1983) kavramsal kümeleme modeli ile parçalara bölme ve konu tanımlamayı gerçekleştirmiştir. Nümerik ölçek kullanılarak yapılan kümelemelerde o sınıfın anlamı kullanıcıya bırakılmaktadır.

Bu çalışmada ise kullanıcı açısından da anlamlı olabilecek sınıflar oluşturulması için tüm geometrik kavramlar algoritmada önceden tanımlanmaktadır. Daha sonra bulunan kümedeki o kavramı karşılayan toplam nokta sayısının, kavramın nokta sayısına oranının en büyük olduğu aday kümeye göre kümeleme yapılmaktadır. Bezdek ve Pal (1992) ve Bezdek ve ark. (1999) bulanık küme analizini geliştirmiştir.

Lin ve ark. (2000) coğrafi alanda kullanılan uzaysal veri madenciliği ile kümeler ve özellikler arasında yakınlık mesafesini ölçen etkili bir algoritma geliştirmiştir.

Uzaklıkları öklid bağıntısına göre hesaplamışlar, yakınlık ölçeğinin hesaplanmasında zamandan kazanmak için alt ve üst limit tanımlamışlardır. Büyük boyuttaki problemler için algoritmalarının karmaşıklık seviyesinin düşük olduğunu ispatlamışlardır. Larsen ve Marx (1986) ve Everitt (1998) bir kümeleme aracı olan ayrıştırma çözümlemesi, zaman serisi analizleri için istatistiksel yöntemleri kullanmışlardır.

Pazar sepeti verisi üzerinde birliktelik kuralları çıkarımı problemi ilk olarak Agrawal ve ark. (1993) tarafından ele alınmıştır. Çalışmada birliktelik kuralları, X ve Y'nin nesne kümeler olduğu X ⇒ Y (X birliktelik Y) şeklinde ifade edilmiş ve birliktelik kurallarının matematiksel şekli belirlenmiştir. Çalışmada kuralların kullanılabilirliğinin ve gücünün ifadeleri olan destek ve güven değerleri belirlenmiştir. Burada amaç, kullanıcı tarafından belirlenen minimum destek ve minimum güven değerlerini sağlayan tüm birliktelik kurallarının bulunmasıdır.

Chen ve ark. (2002) geleneksel birliktelik kuralları oluşturma algoritmalarının çok fazla sayıda kural oluşturmasından hareketle, tek bir özelliğe dayanan daha az sayıda ve basit kuralların oluşturulması için Basit Birliktelik Kuralları (SAR) algoritmasını geliştirmişlerdir. Elde edilen deneysel sonuçlara göre üretilen kural sayısı, tüm kural sayısından %10-15 daha az bulunmuştur.

Tsay ve Chiang (2004), kümeleme tabanlı bir birliktelik analizi algoritması olan Kümeleme Tabanlı Birliktelik Kuralları (CBAR)’nı geliştirmiştir. Algoritma ile önce büyük ölçekli veri tabanı bir kez taranmakta ve sonra da zıt gruplar kümelere ayrılmaktadır. Bu sayede birliktelik kuralları çıkarmak için daha az zaman ve tarama ile kurallar belirlenmiş olmaktadır. Bu algoritma büyük ve küçük boyutlu veri tabanlarında Agrawal’ın geliştirdiği Apriori algoritmasıyla karşılaştırılmış ve belirgin bir şekilde daha iyi sonuçlar elde edilmiştir.

Soukup ve ark. (2002) görselliğin anlamayı kolaylaştırdığı düşüncesinden yola çıkarak histogram ve kutu, çizgi, radar gibi grafiksel yöntemlerle veri madenciliğine farklı bir bakış açısı getirmiştir. Borgelt ve ark. (2002) veri analizi ve madenciliği için ilişkisel, muhtemel ve mümkün ağlar olmak üzere üç çeşit grafiksel model sunmaktadır.

Tamraparni (2003)’ye göre veri madenciliği ile ilgili çoğu yayın, verinin zaten gereksiz bilgilerden arındırılmış ve uzman kişinin ne yapacağını önceden bildiğini varsayarak analiz sürecinin son aşamasına yoğunlaşmaktadır. Bu nedenle Tamraparni (2003) veri keşfi ve veri kalite yönetimi üzerine sistematik bir süreç geliştirmiştir.

In document q656.25 JBV Mæh (sider 37-44)