Порівняння якості та швидкості кластеризації алгоритмом Ллойда залежно від методу ініціалізації

O. M. Matsuga, O. M. Honcharuk

Анотація


Проведено обчислювальні експерименти для порівняння якості та швидкості кластеризації алгоритмом Ллойда залежно від методу ініціалізації. У процесі порівняння розглянуто п’ять методів, що дозволяють обрати початкові центри кластерів для алгоритму Ллойда. Результати експериментів засвідчили перевагу модифікованого методу k-means++ як методу ініціалізації у випадку невеликих наборів даних.


Ключові слова


кластеризація; метод k-середніх; алгоритм Ллойда; метод ініціалізації; якість кластеризації; швидкість кластеризації

Повний текст:

PDF

Посилання


Wu X., Kumar V., Quinlan J. R., etc. Top 10 algorithms in data mining // KnowlInfSyst. 2008. Vol. 14 (1). P.1–37.

Jain A. K. Data Clustering: 50 Years Beyond K-Means // Pattern Recognition Letters. 2010. Vol. 31, Issue 8. P. 651–666.

Lloyd S. Least squares quantization in PCM // IEEE Transactions on Information Theory. 1982. Vol. 28 (2). P. 129–137.

Forgy E. W. Cluster Analysis of Multivariate Data: Efficiency vs Interpretability of Classifications // Biometrics. 1965. Vol. 21. P. 768–780.

MacQueen J. Some Methods for Classification and Analysis of Multivariate Observations // Proc. 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967. Vol. 1. P. 281–297.

Celebi M. E., Kingravi H. A., Vela P. A. A Comparative Study of Efficient Initialization Methods for the K-Means Clustering Algorithm // Expert Systems with Applications. 2013. Vol. 40, Issue 1. P. 200–210.

Steinley D. K-means clustering: A half-century synthesis // British Journal of Mathematical and Statistical Psychology. 2006. Vol. 59. P. 1–34.

Pena J. M., Lozano J. A., Larranaga P. An empirical comparison of four initialization methods for the K-Means algorithm // Pattern Recognition Letters. 1999. Vol. 20, Issue 10. P. 1027–1040.

Bradley P. S., Fayyad U. M. Refining Initial Points for K-Means Clustering // 15th International Conference on Machine Learning (ICML’98). 1998. P. 91–99.

Arthur D. Vassilvitskii S. k-means++: The Advantages of Careful Seeding // 18th annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics, Philadelphia, PA, USA. 2007. P. 1027–1035.

Бабак В. П., Білецький А. Я., Приставка О. П., Приставка П. О. Статистична обробка даних. Київ: МІВВЦ, 2001. 388 с.




DOI: http://dx.doi.org/10.15421/431713

Посилання

  • Поки немає зовнішніх посилань.


Контактна інформація:

Байбуз Олег Григорович - відповідальний редактор 

Тел: (056) 766-49-52

Mail: olegbaybuz68@gmail.com

Україна, 49010, м. Дніпро, пр. Гагаріна, 72

--------------------------------------------------------------------

Дніпровський національний університет імені Олеся Гончара

National Library of Ukraine Vernadsky

Google Scholar

Open Academic Journals Index

Bielefeld Academic Search Engine

Open Archives

  Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.


Open Science in Ukraine - website development