Page 26 - 4713
P. 26
5) перевірка достовірності результатів кластерного рішення.
Кожен з цих кроків відіграє значну роль у практичному
здійсненні аналізу.
Визначення множини ознак, які покладаються в основу оцінки
об'єктів, у кластерному аналізі є одним із найважливіших завдань
дослідження. Мета цього кроку повинна полягати у визначенні
сукупності змінних ознак, яка найкраще відображає поняття
подібності. Ці ознаки мають вибиратися з урахуванням теоретичних
положень, покладених в основу класифікації, а також мети
дослідження.
При визначенні міри подібності об'єктів кластерного аналізу
використовуються чотири види коефіцієнтів: коефіцієнти кореляції,
показники віддалей, коефіцієнти асоціативності та ймовірносні,
коефіцієнти подібності.
В результаті аналізу сукупності вхідних даних створюються
однорідні групи у такий спосіб, що об'єкти всередині цих груп
подібні між собою за деяким критерієм, а об'єкти з різних груп
відрізняються один від одного.
Кластеризація може здійснюватися двома основними способами,
зокрема за допомогою ієрархічних чи ітераційних процедур.
Ієрархічні процедури – послідовні дії щодо формування
кластерів різного рангу, підпорядкованих між собою за чітко
встановленою ієрархією. Найчастіше ієрархічні процедури
здійснюються шляхом агломеративних (об'єднувальних) дій. Вони
передбачають такі операції:
– послідовне об'єднання подібних об'єктів з утворенням матриці
подібності об'єктів;
– побудова дендрограми (деревоподібної діаграми), яка
відображає послідовне об'єднання об'єктів у кластери;
– формування із досліджуваної сукупності окремих кластерів на
першому початковому етапі аналізу та об'єднання всіх об'єктів в одну
велику групу на завершальному етапі аналізу.
Ітераційні процедури полягають в утворенні з первинних даних
однорівневих (одного рангу) ієрархічно не підпорядкованих між
собою кластерів.
Одним із найбільш поширених способів проведення ітераційних
процедур ось уже понад сорок років виступає метод k-середніх.
Застосування його потребує здійснення таких кроків:
26