Page 188 - 4511
P. 188

як до безперервних, так і категоріальних змінних (відмі-
                  тимо,  що  класичний  алгоритм  К-середніх  може  також
                  бути модифікований до категоріальних змінних).
                Алгоритм ЕМ
                Основний підхід і логіка цього методу є наступними. При-
           пустимо, що ви вимірюєте єдину безперервну змінну у великій
           вибірці спостережень. Далі, припускайте, що  вибірка склада-
           ється з двох груп спостережень з різними середніми (і можливо
           різними середніми квадратичними відхиленнями); в межах ко-
           жної вибірки розподіл для безперервної змінної є нормальним.
           Результуючий розподіл значень може виглядати наступним чи-
           ном:




























                Суміші  розподілів.  На  рисунку  показані  дві  нормальні
           криві  з  різними  середніми  і  різними  стандартними  відхилен-
           нями і суму двох розподілів, але спостерігалося тільки суміш
           (сума)  двох нормальних розподілів. Мета EM - кластеризації є
           оцінка середніх і стандартних відхиленнь для кожного кластера
           так,  щоб  максимізувати  ймовірність  спостережуваних  даних



                                            187
   183   184   185   186   187   188   189   190   191   192   193