Sınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamaları

Köklü, Murat

Sınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamaları

dc.contributor.advisor	Allahverdi, Novruz
dc.contributor.advisor	Kahramanlı, Humar
dc.contributor.author	Köklü, Murat
dc.date.accessioned	2017-08-15T13:27:04Z
dc.date.available	2017-08-15T13:27:04Z
dc.date.issued	2014-09-12
dc.department	Enstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı	en_US
dc.description.abstract	Bilgisayar teknolojileri ve veri tabanı yazılımlarındaki gelişmeler sonucunda büyük miktarda veri birikmiş ve eldeki verilerden anlamlı bilgi çıkarma ihtiyacı ortaya çıkmıştır. Büyük miktarda depolanan bu veriler birçok gizli örüntü içermesine rağmen, toplanan veri miktarı büyüdükçe ve verilerdeki karmaşıklık arttıkça, geleneksel yöntemler ile veri bilgiye dönüştürülemez hale gelmektedir. Bu nedenle günümüzde büyük miktarda verileri çözümlemek amacıyla veri madenciliği yöntemleri yaygın bir şekilde kullanılmaktadır. Veri madenciliği yöntemlerinden sınıflandırma, kümeleme ve birliktelik kuralı keşfetme sıklıkla tercih edilmektedir. Sınıflandırma, önceden kategorisi belli olan veriler kullanılarak bir model oluşturulup, yeni karşılaşılan verinin hangi sınıfa ait olduğunu belirleme işlemidir. Yeni bir verinin, belirli sınıflar içinde hangi sınıfa ait olduğunu tespit edecek bir sınıflayıcı oluşturmak amacıyla veri madenciliği yöntemleri sıklıkla kullanılmaktadır. Bu sınıflandırma yöntemleri genellikle başarılı olmasına rağmen, ortaya konulan değişik sınıflandırma ve kural çıkarma algoritmaları özellikle çok sınıflı gerçek dünya problemleri için henüz arzu edilen seviyeye ulaşamamıştır. Bu tez çalışmasında çok sınıflı verilerden kural çıkarımı için yeni bir yöntem geliştirilmiştir. Geliştirilen bu yöntemde ayrık ve gerçel öznitelikler farklı şekilde kodlanmıştır. Ayrık öznitelikler ikili olarak, gerçek öznitelikler ise, iki gerçel değer kullanılarak kodlanmıştır. Gerçel değerler kuralları oluşturan özniteliklerin değer aralıklarının orta noktası ve genişlemesini ifade etmektedir. Kural çıkarım işlemi için sınıflandırma başarısı uygunluk fonksiyonu olarak kullanılmıştır. Uygunluk fonksiyonunun optimizasyonu amacıyla Yapay Bağışıklık Sistemi (YBS) yöntemlerinden olan CLONALG algoritması kullanılmıştır. Önerilen yöntem en uygun aralıkları keşfettiğinden dolayı bu yönteme isim olarak "Aralık Keşfi" anlamına gelen INDISC (INterval DISCovery) verilmiştir. INDISC yöntemi 8 farklı veri kümesi üzerinde test edilmiştir. INDISC yöntemini uygulamak için Pima yerlileri diyabet hastalığı, Orjinal wisconsin göğüs kanseri, Teşhis wisconsin göğüs kanseri, Deniz kabuğu, Süsen çiçeği, Cam kimliklendirme, Şarap ve Tiroid hastalığı veri kümeleri kullanılmıştır. Veriler Irvine California Üniversitesi (UCI) makine öğrenmesi veri deposundan temin edilmiştir. INDISC yöntemi, Pima yerlileri diyabet hastalığı %80.34, Wisconsin göğüs kanseri (orjinal) %99.12, Wisconsin göğüs kanseri (teşhis) %96.31, Deniz kabuğu %62.59, Süsen çiçeği %100, Cam kimliklendirme %77.10, Şarap %99.44 ve Tiroid hastalığı %93.95 doğrulukla sınıflandırmıştır. Diğer yöntemlerle elde edilen başarı yüzdeleri ile geliştirdiğimiz INDISC yöntemi başarı yüzdeleri karşılaştırılmıştır. Tüm veri kümelerinde INDISC yöntemi ile elde edilen sonuçların diğer yöntemlerle elde edilen sonuçlardan daha başarılı olduğu görülmüştür.	en_US
dc.description.abstract	It has been aroused the necessity of extracting meaningful information from huge amount of available data that is accumulated as result of development in computer technology and database software. Traditional methods can't cope with turning the data to the knowledge due to amount and complexity of accumulated data that has so many hidden patterns in it. Thus, nowadays the data mining techniques are commonly used for analyzing huge amount of information. Classification, clustering and associated rule extraction of data mining techniques are preferred widely. Classification is the operation of determining class of the data by forming a model that makes use of data whose categories are previously determined. Data mining techniques are frequently used to form a classifier that determines belonging class of a new data among the predetermined classes. Although these classification methods including different classification and rule extraction algorithms are generally successful they don't reach the required success levels when it comes to multi-class real world problems. In this dissertation thesis a new method for rule extraction was developed. Real and discrete attributes were coded differently. Discrete and real attributes were coded as binary and two real values, respectively. Real values represent middle points and extensions of value intervals of attributes that forms of rules. Classification success was used as fitness function for rule extraction operation. One of the methods of Artificial Immune System (AIS) called CLONALG algorithm was used for optimization fitness function. Since the proposed method invents the most appropriate intervals it is called as INDISC (Interval DISCovery) meaning "Interval Invention". INDISC method was tested on 8 different data sets. In order to apply INDISC method the data sets of Pima Indian diabetic illness, Original wisconsin breast cancer, Diagnosis wisconsin breast cancer, Abolone, Iris, Glass Identification, Wine and Newthyroid were used. The data were obtained from Irvine California University (UCI) machine learning data bank. INDISC method has classified Pima indian diabetic illness, Original Wisconsin breast cancer, Diagnosis Wisconsin breast cancer, Abolone, Iris, Glass Identification, Wine and Newthyroid in the success ratios of %80.34, %99.12, %96.31, %62.59, %100, %77.10, %99.44 and %93.95, respectively. Other methods were compared with proposed INDISC method according to success rates of classification. It has been seen that the results obtained from proposed INDISC method are more successful than all other methods.	en_US
dc.identifier.citation	Köklü, M. (2014). Sınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamaları. Selçuk Üniversitesi, Yayımlanmış doktora tezi, Konya.	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.12395/5804
dc.language.iso	tr	en_US
dc.publisher	Selçuk Üniversitesi Fen Bilimleri Enstitüsü	en_US
dc.relation.publicationcategory	Tez	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.selcuk	20240510_oaig	en_US
dc.subject	Yapay zeka teknikleri	en_US
dc.subject	Yapay bağışıklık	en_US
dc.subject	Sınıflandırma	en_US
dc.subject	Kural çıkarma	en_US
dc.subject	INDISC yöntemi	en_US
dc.subject	Gerçel değer kodlaması	en_US
dc.subject	Rule extraction	en_US
dc.subject	Real value codding	en_US
dc.subject	Artificial immune system	en_US
dc.subject	Artificial intelligence methods	en_US
dc.subject	Classification	en_US
dc.subject	INDISC method	en_US
dc.title	Sınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamaları	en_US
dc.title.alternative	Development and applications of a new method for rule extraction in classification problems	en_US
dc.type	Doctoral Thesis	en_US

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1

İsim:: 398747_removed.pdf
Boyut:: 1.91 MB
Biçim:: Adobe Portable Document Format
Açıklama:: Murat Köklü

İndir

Lisans paketi

Listeleniyor 1 - 1 / 1

İsim:: license.txt
Boyut:: 1.51 KB
Biçim:: Item-specific license agreed upon to submission
Açıklama:

İndir

Koleksiyon

Fen Bilimleri Enstitüsü Tez Koleksiyonu