Page 192 - 4511
P. 192
На рисунку зверху ви бачите результат аналізу набору да-
них, що містять три групи спостережень. Крім того, показано
(на графіку знизу) результати аналізу простих нормальних ви-
падкових чисел.
"Реальні" дані (показані зверху) демонструють характер-
ний осип (спад) (див. також факторний аналіз), де функція вар-
тості (в даному випадку мінус 2 логарифма функції вірогідності
даних крос-перевірки з врахуванням оцінених параметрів) шви-
дко зменшується із збільшенням кількості кластерів, але потім
(для 4-х кластерів) вирівнюється.
З іншого боку , випадкові числа не виявляють такий хара-
ктер і, по суті, немає в основному ніякого зниження функції ви-
трат на всіх кластерах і графік швидко починає рости як тільки
кількість кластерів збільшується ( відбувається перенавчання) .
Легко бачити з цієї простої ілюстрації, наскільки ефекти-
вною є техніка V-кратної перехресної перевірки, застосування
якої до методів K-середнього і EM кластеризації може бути ко-
рисним для визначення «правильного» числа кластерів у даних.
Виведення результатів
На додаток до стандартних результатів кластерного ана-
лізу в модулі доступний також різноманітний набір описових
статистик і розширених діагностичних методів (тобто повний
каталог об'єднань з пороговими рівнями при ієрархічній клас-
теризації і таблиці при кластеризації К - середніми).
Графічні опції модуля Кластерний аналіз включають де-
ревовидні діаграми або дендрограммы (горизонтальныге дере-
вовидні діаграми і вертикальні деревовидні діаграми), двувхо-
довые діаграми об'єднання (контурні діаграми), діаграми сере-
дніх при кластеризації методом До середніх, таблиці об'єд-
нання, а також великий набір описових графіків (які можуть до-
помогти в інтерпретації результатів).
Кластерний аналіз порівняно з факторним аналізом
У факторному аналізі передбачається, що дані виміряні в
інтервальній шкалі і розподілені відповідно до багатовимірного
нормального розподілу. Факторний аналіз використовує залеж-
ності між змінними (тобто схожість по зміні змінних в межах
191