TrAgLor - Turkish Agricultural Learning Objects Repository

Object Details

Choosing An Optimal K in K-Means Clustering

Identifier : Catalog : URI
Entry : http://traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf


Title : Turkish K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi
English Choosing An Optimal K in K-Means Clustering


Language : Turkish Turkish



Descriptions : Turkish Kümeleme analizi, veri yapıları ve örüntüler gibi anlamlı bilginin keşfedilmesini sağladığından veri madenciliğinde en yaygın kullanılan analizlerinden biri olmuştur. Kümeleme analizi için geliştirilmiş yüzlerce algoritma mevcut olmasına karşın her durumda en iyi denilebilecek bir algoritma söz konusu değildir. Uygun bir kümeleme algoritmasının seçimi, veri büyüklüğü ve boyutu ile kümelerin şekli ve dağılışı yanında kümelemenin amacına da bağlı olmakla birlikte büyük verilerin analizinde bölümleyici kümeleme algoritmalarının tercih edildiği görülmektedir. Sert ve bölümleyici bir algoritma olan K-ortalamalar ise yarım asırdan beri hızı ve basitliği nedeniyle belki de en popüler olanlar arasında yer almaktadır. Diğer bölümleyici kümeleme algoritmaları gibi K-ortalamalar algoritması da başlangıçta bir k değerinin yani küme sayısının girilmesini gerektirmektedir. Kümelemenin sonucunu doğrudan etkileyen optimal bir k değeri seçimi için birçok yöntem mevcuttur. Alan bilgisi ve veri yapısı üzerinde belli bir tecrübeye dayanarak yapılan k seçimi sübjektiftir. Diğer yandan kümeleme analizi sonrası belirlenen geçerlilik indislerinin performanslarında veri yapısına göre duyarlılıklar söz konusu olmaktadır. Bu nedenle hala daha güvenilir ve hızlı k değeri verebilecek yöntemlere ihtiyaç duyulmaktadır. Bu çalışmada, k’nın optimal seçiminde kullanılmak üzere Pham ve ark. (2005) tarafından önerilen f(K) fonksiyonu tanıtılmış ve çeşitli yapay veri setleri üzerinde test edilmiştir. Ayrıca kümeleme analizinde optimal k değeri seçiminde kullanılmak üzere yöntemin bir uygulaması olarak R ortamı için geliştirilen "kselection" paketi kullanılarak yöntemin performansı ortaya konulmuştur. Yapılan analizlerde f(K) fonksiyonun kümeleme geçerliliği değerlendirmesinde kullanılan iç indekslerden daha başarılı sonuçlar verdiği saptanmıştır.
English Cluster analysis has been one of the widely applied data mining techniques because of its usefulness in discovering the meaningful information such as the structures and patterns in datasets. Although there are hundreds of the methods in clustering arena, there is no any best algorithm that fits to all cases. Over a half century, K-means as the basic hard partitioning algorithm has probably been the most popular because of its lower execution time and simplicity to implement in big data analysis. As needed for the other partitioning algorithms, K-means algorithm requires inputting a k value, the number of clusters before starting to cluster analysis. There are several methods to determine an optimal k value, directly affecting the results of partitioning datasets. Among them, the subjective methods depend on user’s domain knowledge and experiences on the underlying datasets. On the other hand, clustering validity indices used after clustering may be sensitive to data structures, and thus they are based on trial-and-error process. Therefore robust, fast and automated methods are still needed for determination of k in K-means clustering. In this paper, for optimal choice of k, the f(K) function proposed by Pham et al. (2005) was explained and tested on the artificially generated datasets. In addition, the performance of the function was revealed for employing with K-means clustering by running the “kselection”, a package developed to implement the method in R environment. According to the results, it was obtained that f(K) function is more successful than the internal indices which are used in clustering validation.


Keywords : English data mining
Turkish kümeleme analizi
English clustering analysis
Turkish k-ortalamalar kümelemesi
English k-means clustering
Turkish objektif k seçimi
English objective selection of k


Coverage : World


Structure : Atomic


Aggregation Level : Level 1


Version : Turkish Ekim 2015


Status : Final


Contribute : Role : Author
Date : 2015-10-12
name : Zeynel Cebeci
e-mail : cebeciz@gmail.com
organization : Çukurova University, Faculty of Agrirculture, Div. of Biometry & Genetics, 01330 Adana, Turkey
name : Figen Yıldız
e-mail : yildizf@cu.edu.tr
organization : Çukurova University, Faculty of Agrirculture, Div. of Biometry & Genetics, 01330 Adana, Turkey
name : G. Tamer Kayaalp
e-mail : tkayaalp@cu.edu.tr
organization : Çukurova University, Faculty of Agrirculture, Div. of Biometry & Genetics, 01330 Adana, Turkey




Identifier : Catalog : URI
Entry : http://traglor.cu.edu.tr/common/object_xml.aspx?id=1947


Contribute : Role : Initiator
Date : 2015-10-12
name : Zeynel Cebeci
e-mail : cebeciz@gmail.com
organization : Çukurova Üniversitesi Ziraat Fakültesi Biyometri ve Genetik Anabilim Dalı


Metadata Schema : TrAgLor LOM AP


Language : Turkish Turkish
Format : Text


Requirements : Operating System: Multios
Min ver :
Max ver :
Browser: Any
Min ver :
Max ver :


Installation Remarks :


Other Platform Requirements :


Duration : Year : 0 Month : 0 Day : 0 Hour : 0 Minutes : 0


Size : 1326000 bytes


Location : http://traglor.cu.edu.tr/objects/objectFile/qO7TZaso-12102015-24.pdf


Interactivity Type : Expositive


Learning Resource Type : Proceedings


Interactivity Level : Low


Semantic Density : Very High


Intended End User Role : Other


Context : University Postgraduate


Typical Age Range : Turkish 18Ü


Difficulty Level : Difficult


Duration : Year : 0 Month : 0 Day : 2 Hour : 6 Minutes : 0


Description :


Cost : No


Copyright and Other Restrictions : Yes


Description : This resource is licensed under the license(CC-BY-NC-ND) Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported


Kind : IsPartOf


Resource : Catalog : URI
Entry :


Description : Turkish Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “K-Ortalamalar Kümelemesinde Optimum K Değeri Seçilmesi”, 2. Ulusal Yönetim Bilişim Sistemleri Kongresi, 8-10 Ekim 2015, Erzurum. Bildiriler Kitabı (Ed: Ü. Özen ve ark.), s. 231-242. Orka Ofset Matbaacılık, Erzurum, ISBN:978-975-442-738-7.
English Cebeci, Z., Yıldız, F., Kayaalp, G.T. (2015) “Choosing an Optimal K in K-means Clustering”, 2nd National Congress on Management Information Systems, 8-10 Oct 2015, Erzurum, Turkey. Proceedings (Ed: Ü. Özen et al.), pp. 231-242. Orka Printing, Erzurum, ISBN:978-975-442-738-7.


Entity : name :
e-mail :
organization :


Date :


Description :


Purpose : Discipline


Source : Turkish AGRICOLA


Entry : Mathematics and Statistics
Computer and Library Sciences


Description :


Keywords : English cluster analysis
English data mining