Page 188 - 4511
P. 188
як до безперервних, так і категоріальних змінних (відмі-
тимо, що класичний алгоритм К-середніх може також
бути модифікований до категоріальних змінних).
Алгоритм ЕМ
Основний підхід і логіка цього методу є наступними. При-
пустимо, що ви вимірюєте єдину безперервну змінну у великій
вибірці спостережень. Далі, припускайте, що вибірка склада-
ється з двох груп спостережень з різними середніми (і можливо
різними середніми квадратичними відхиленнями); в межах ко-
жної вибірки розподіл для безперервної змінної є нормальним.
Результуючий розподіл значень може виглядати наступним чи-
ном:
Суміші розподілів. На рисунку показані дві нормальні
криві з різними середніми і різними стандартними відхилен-
нями і суму двох розподілів, але спостерігалося тільки суміш
(сума) двох нормальних розподілів. Мета EM - кластеризації є
оцінка середніх і стандартних відхиленнь для кожного кластера
так, щоб максимізувати ймовірність спостережуваних даних
187