Page 189 - 4511
P. 189
(розподілів). Іншими словами, алгоритм EM намагається на-
близити спостережувані розподіли на основі суміші різних роз-
поділів в різних кластерах.
При реалізації алгоритму EM в деяких комп'ютерних про-
грамах, ви можете мати можливість вибрати (для безперервних
змінних) різні розподілу, такі як нормальний, логарифмічно но-
рмальний і розподілів Пуассона . Ви можете вибрати різні роз-
поділу для різних змінних і ,таким чином, отримати кластери
для сумішей різних видів розподілів .
Категоріальні змінні. Алгоритм EM також може викори-
стовувати категоріальні змінні. Метод буде спочатку випадко-
вим чином призначати різні ймовірності (ваги, щоб бути точ-
ним) для кожного класу або категорії, для кожного кластера. У
послідовних ітерацій ці ймовірності уточнюються , щоб макси-
мізувати ймовірність даних, утворюючих задане число класте-
рів.
Класифікація ймовірності замість класифікації відс-
таней. Результати EM кластеризації відрізняються від тих, що
обчислюється методом К- середніх. Останній буде призначити
спостереження до кластерів, максимізуючи відстані між клас-
терами. Алгоритм EM не обчислює фактичні призначення спо-
стережень для кластерів, а класифікує ймовірності. Іншими
словами, кожне спостереження приєднуться до кожного клас-
теру з деякою ймовірністю. Звичайно, як кінцевий результат
можна розглядати фактичне призначення спостережень в клас-
терів, що грунтується на найвищій класифікаційній ймовірно-
сті.
Пошук відповідного числа кластерів в методах К- сере-
дніх і EM кластеризації: V -разова крос- перевірка.
Важливе питання, на яке необхідно відповісти перш, ніж
застосувати метод К- середніх або алгоритм EM кластеризації -
скільки кластерів є в даних. Воно не відоме апріорі і, по суті,
може і не бути ніякої визначенної або однозначної відповіді
щодо того, яке значення К повинне бути прийняте. На щастя,
оцінку К можна отримати з даних з використанням методу пе-
рехресної перевірки. Пам'ятайте, що методи K -середнього і EM
визначатимуть кластерні рішення для заданого користувальни-
цького числа кластерів. Методи К- середніх і EM - кластериза-
ції (описані вище) можуть бути оптимізовані і посилюється для
типових додатків в модулі інтелектуального аналізу даних
188