Page 184 - 4511
P. 184

питання, як слід визначити відстані між кластерами? Іншими
           словами, потрібне правило об'єднання або зв'язку для двох кла-
           стерів. Тут є різні можливості: наприклад, ви можете зв'язати
           два кластери разом, коли довільні два об'єкти в двох кластерах
           ближче  один  до  одного,  ніж  відповідна  відстань  зв'язку.  Ін-
           шими словами, ви використовуєте "правило найближчого су-
           сіда" для визначення відстані між кластерами; цей метод нази-
           вається методом поодинокого зв'язку. Це правило будує "воло-
           книсті" кластери, тобто кластери "зчеплені разом " тільки окре-
           мими елементами, що випадково виявилися ближче за інших
           один до одного.
                Як  альтернативу  ви  можете  використовувати  сусідів  в
           кластерах, які знаходяться далі за усі інші пари об'єктів один
           від одного. Цей метод називається метод повного зв'язку. Є та-
           кож інші методи об'єднання кластерів, подібні тим, що були ро-
           зглянуті тут, і модуль Кластерний аналіз пропонує широкий їх
           вибір.
                Поодинокий  зв'язок  (метод  найближчого  сусіда).  У
           цьому методі відстань між двома кластерами визначається від-
           станню  між  двома  найбільш  близькими  об'єктами  (найближ-
           чими сусідами) в різних кластерах. Це правило повинне, у відо-
           мому сенсі, нанизувати об'єкти разом для формування класте-
           рів, і результуючі кластери мають тенденцію бути представле-
           ними довгими "ланцюжками".
                Повний зв'язок (метод найбільш видалених сусідів). У
           цьому методі відстані між кластерами визначаються найбіль-
           шою відстанню між будь-якими двома об'єктами в різних клас-
           терах (тобто "найбільш видаленими сусідами"). Цей метод за-
           звичай працює дуже добре, коли об'єкти походять насправді з
           реально різних "гаїв". Якщо ж кластери мають в деякому роді
           подовжену форму або їх природний тип є "цепочечным", то цей
           метод непридатний.
                Незважене попарне середнє (UPGMA). У цьому методі
           відстань між двома різними кластерами обчислюється як сере-
           дня відстань між усіма парами об'єктів в них. Метод ефектив-
           ний, коли об'єкти насправді формують різні "гаї", проте він пра-
           цює однаково добре і у випадках протяжних (типу "ланцюжка")
           кластерів.
                Зважене попарне середнє (WPGMA). Метод ідентичний
           методу  незваженого  попарного  усереднювання,  за  винятком

                                            183
   179   180   181   182   183   184   185   186   187   188   189