Page 189 - 4511
P. 189

(розподілів).  Іншими  словами,  алгоритм  EM  намагається  на-
           близити спостережувані розподіли на основі суміші різних роз-
           поділів в різних кластерах.
                При реалізації алгоритму EM в деяких комп'ютерних про-
           грамах, ви можете мати можливість вибрати (для безперервних
           змінних) різні розподілу, такі як нормальний, логарифмічно но-
           рмальний  і розподілів Пуассона . Ви можете вибрати різні роз-
           поділу для різних змінних і ,таким чином, отримати кластери
           для сумішей різних видів розподілів .
                Категоріальні змінні. Алгоритм EM також може викори-
           стовувати категоріальні змінні. Метод буде спочатку випадко-
           вим чином призначати різні ймовірності (ваги, щоб бути точ-
           ним) для кожного класу або категорії, для кожного кластера. У
           послідовних ітерацій  ці ймовірності уточнюються , щоб макси-
           мізувати ймовірність даних, утворюючих задане число класте-
           рів.
                Класифікація  ймовірності  замість  класифікації  відс-
           таней. Результати EM кластеризації відрізняються від тих, що
           обчислюється методом К- середніх. Останній буде призначити
           спостереження до кластерів, максимізуючи відстані між клас-
           терами. Алгоритм EM не обчислює фактичні призначення спо-
           стережень  для  кластерів,  а  класифікує  ймовірності.  Іншими
           словами, кожне спостереження приєднуться до кожного клас-
           теру  з  деякою  ймовірністю.  Звичайно,  як  кінцевий  результат
           можна розглядати фактичне призначення спостережень в клас-
           терів, що грунтується на найвищій класифікаційній ймовірно-
           сті.
                Пошук відповідного числа кластерів в методах К- сере-
           дніх і EM кластеризації: V -разова крос- перевірка.
                Важливе питання, на яке необхідно відповісти перш, ніж
           застосувати метод К- середніх або алгоритм EM кластеризації -
           скільки кластерів є в даних. Воно не відоме апріорі і, по суті,
           може  і  не  бути  ніякої  визначенної  або  однозначної  відповіді
           щодо того, яке значення К повинне бути прийняте. На щастя,
           оцінку К можна отримати з даних з використанням методу пе-
           рехресної перевірки. Пам'ятайте, що методи K -середнього і EM
           визначатимуть кластерні рішення для заданого користувальни-
           цького числа кластерів. Методи К- середніх і EM - кластериза-
           ції (описані вище) можуть бути оптимізовані і посилюється для
           типових  додатків  в  модулі  інтелектуального  аналізу  даних

                                            188
   184   185   186   187   188   189   190   191   192   193   194