Sınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamaları

dc.contributor.advisorAllahverdi, Novruz
dc.contributor.advisorKahramanlı, Humar
dc.contributor.authorKöklü, Murat
dc.date.accessioned2017-08-15T13:27:04Z
dc.date.available2017-08-15T13:27:04Z
dc.date.issued2014-09-12
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.description.abstractBilgisayar teknolojileri ve veri tabanı yazılımlarındaki gelişmeler sonucunda büyük miktarda veri birikmiş ve eldeki verilerden anlamlı bilgi çıkarma ihtiyacı ortaya çıkmıştır. Büyük miktarda depolanan bu veriler birçok gizli örüntü içermesine rağmen, toplanan veri miktarı büyüdükçe ve verilerdeki karmaşıklık arttıkça, geleneksel yöntemler ile veri bilgiye dönüştürülemez hale gelmektedir. Bu nedenle günümüzde büyük miktarda verileri çözümlemek amacıyla veri madenciliği yöntemleri yaygın bir şekilde kullanılmaktadır. Veri madenciliği yöntemlerinden sınıflandırma, kümeleme ve birliktelik kuralı keşfetme sıklıkla tercih edilmektedir. Sınıflandırma, önceden kategorisi belli olan veriler kullanılarak bir model oluşturulup, yeni karşılaşılan verinin hangi sınıfa ait olduğunu belirleme işlemidir. Yeni bir verinin, belirli sınıflar içinde hangi sınıfa ait olduğunu tespit edecek bir sınıflayıcı oluşturmak amacıyla veri madenciliği yöntemleri sıklıkla kullanılmaktadır. Bu sınıflandırma yöntemleri genellikle başarılı olmasına rağmen, ortaya konulan değişik sınıflandırma ve kural çıkarma algoritmaları özellikle çok sınıflı gerçek dünya problemleri için henüz arzu edilen seviyeye ulaşamamıştır. Bu tez çalışmasında çok sınıflı verilerden kural çıkarımı için yeni bir yöntem geliştirilmiştir. Geliştirilen bu yöntemde ayrık ve gerçel öznitelikler farklı şekilde kodlanmıştır. Ayrık öznitelikler ikili olarak, gerçek öznitelikler ise, iki gerçel değer kullanılarak kodlanmıştır. Gerçel değerler kuralları oluşturan özniteliklerin değer aralıklarının orta noktası ve genişlemesini ifade etmektedir. Kural çıkarım işlemi için sınıflandırma başarısı uygunluk fonksiyonu olarak kullanılmıştır. Uygunluk fonksiyonunun optimizasyonu amacıyla Yapay Bağışıklık Sistemi (YBS) yöntemlerinden olan CLONALG algoritması kullanılmıştır. Önerilen yöntem en uygun aralıkları keşfettiğinden dolayı bu yönteme isim olarak "Aralık Keşfi" anlamına gelen INDISC (INterval DISCovery) verilmiştir. INDISC yöntemi 8 farklı veri kümesi üzerinde test edilmiştir. INDISC yöntemini uygulamak için Pima yerlileri diyabet hastalığı, Orjinal wisconsin göğüs kanseri, Teşhis wisconsin göğüs kanseri, Deniz kabuğu, Süsen çiçeği, Cam kimliklendirme, Şarap ve Tiroid hastalığı veri kümeleri kullanılmıştır. Veriler Irvine California Üniversitesi (UCI) makine öğrenmesi veri deposundan temin edilmiştir. INDISC yöntemi, Pima yerlileri diyabet hastalığı %80.34, Wisconsin göğüs kanseri (orjinal) %99.12, Wisconsin göğüs kanseri (teşhis) %96.31, Deniz kabuğu %62.59, Süsen çiçeği %100, Cam kimliklendirme %77.10, Şarap %99.44 ve Tiroid hastalığı %93.95 doğrulukla sınıflandırmıştır. Diğer yöntemlerle elde edilen başarı yüzdeleri ile geliştirdiğimiz INDISC yöntemi başarı yüzdeleri karşılaştırılmıştır. Tüm veri kümelerinde INDISC yöntemi ile elde edilen sonuçların diğer yöntemlerle elde edilen sonuçlardan daha başarılı olduğu görülmüştür.en_US
dc.description.abstractIt has been aroused the necessity of extracting meaningful information from huge amount of available data that is accumulated as result of development in computer technology and database software. Traditional methods can't cope with turning the data to the knowledge due to amount and complexity of accumulated data that has so many hidden patterns in it. Thus, nowadays the data mining techniques are commonly used for analyzing huge amount of information. Classification, clustering and associated rule extraction of data mining techniques are preferred widely. Classification is the operation of determining class of the data by forming a model that makes use of data whose categories are previously determined. Data mining techniques are frequently used to form a classifier that determines belonging class of a new data among the predetermined classes. Although these classification methods including different classification and rule extraction algorithms are generally successful they don't reach the required success levels when it comes to multi-class real world problems. In this dissertation thesis a new method for rule extraction was developed. Real and discrete attributes were coded differently. Discrete and real attributes were coded as binary and two real values, respectively. Real values represent middle points and extensions of value intervals of attributes that forms of rules. Classification success was used as fitness function for rule extraction operation. One of the methods of Artificial Immune System (AIS) called CLONALG algorithm was used for optimization fitness function. Since the proposed method invents the most appropriate intervals it is called as INDISC (Interval DISCovery) meaning "Interval Invention". INDISC method was tested on 8 different data sets. In order to apply INDISC method the data sets of Pima Indian diabetic illness, Original wisconsin breast cancer, Diagnosis wisconsin breast cancer, Abolone, Iris, Glass Identification, Wine and Newthyroid were used. The data were obtained from Irvine California University (UCI) machine learning data bank. INDISC method has classified Pima indian diabetic illness, Original Wisconsin breast cancer, Diagnosis Wisconsin breast cancer, Abolone, Iris, Glass Identification, Wine and Newthyroid in the success ratios of %80.34, %99.12, %96.31, %62.59, %100, %77.10, %99.44 and %93.95, respectively. Other methods were compared with proposed INDISC method according to success rates of classification. It has been seen that the results obtained from proposed INDISC method are more successful than all other methods.en_US
dc.identifier.citationKöklü, M. (2014). Sınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamaları. Selçuk Üniversitesi, Yayımlanmış doktora tezi, Konya.en_US
dc.identifier.urihttps://hdl.handle.net/20.500.12395/5804
dc.language.isotren_US
dc.publisherSelçuk Üniversitesi Fen Bilimleri Enstitüsüen_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.selcuk20240510_oaigen_US
dc.subjectYapay zeka tekniklerien_US
dc.subjectYapay bağışıklıken_US
dc.subjectSınıflandırmaen_US
dc.subjectKural çıkarmaen_US
dc.subjectINDISC yöntemien_US
dc.subjectGerçel değer kodlamasıen_US
dc.subjectRule extractionen_US
dc.subjectReal value coddingen_US
dc.subjectArtificial immune systemen_US
dc.subjectArtificial intelligence methodsen_US
dc.subjectClassificationen_US
dc.subjectINDISC methoden_US
dc.titleSınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamalarıen_US
dc.title.alternativeDevelopment and applications of a new method for rule extraction in classification problemsen_US
dc.typeDoctoral Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
398747_removed.pdf
Boyut:
1.91 MB
Biçim:
Adobe Portable Document Format
Açıklama:
Murat Köklü
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.51 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: