Page 190 - 4511
P. 190

(data mining). Загальна метафора data mining передбачає ситу-
           ацію, в якій аналітик шукає корисні структури і "самородки" в
           даних, як правило, без будь-яких сильних апріорних очікувань
           того, що міг би знайти аналітик (на відміну від іншого підходу
           наукових досліджень - перевірки гіпотез) . На практиці аналітик
           зазвичай  може  не  знати  заздалегідь,  скільки  кластерів  може
           бути в даних. З цієї причини, деякі програми включають в себе
           реалізацію алгоритму V- кратної перехресної перевірки для ав-
           томатичного визначення кількості кластерів у даних.
                Цей унікальний алгоритм є надзвичайно корисним у всіх
           загальних завдачах  "розпізнавання образів" - визначити кіль-
           кість сегментів ринку в науковому дослідженні маркетингу, чи-
           сло кластерів різних медичних симптомів, число різних типів
           (кластерів) документів в text mining, кількість погодних умов в
           метеорологічних  досліджень,  число  дефектних  візерунки  на
           кремнієвих пластин і т.д.
                Застосування алгоритму V- кратної перехресної пере-
           вірки для кластеризації . Алгоритм V- кратної перехресної пе-
           ревірки описаний більш детально в модулях Classification Trees
           and General Classification і Regression Trees (GC&RT) . Загальна
           ідея цього методу полягає в поділі загальної вибірки на V скла-
           док.  Цей тип аналізу послідовно застосовується до  спостере-
           жень, що належать до V- 1 складок (навчальна вибірка) , а потім
           результати аналізу застосовуються до вибірки V, яка не була
           використана для оцінки параметрів, побудови дерева класифі-
           кації, визначення кластерів тощо - це вибірка для тестування),
           щоб  обчислити  деякий  індекс  прогностичної  валідності.  Ре-
           зультати для V реплікацій агрегуються (в середньому), отриму-
           ючи єдину міру стабільності відповідної моделі, тобто, придат-
           ності моделі для прогнозування нових спостережень.
                Загалом, ми можемо застосувати метод V- кратної перех-
           ресної перевірки в діапазоні числа кластерів в методах К-сере-
           дніх або EM кластеризації, і спостерігати отриману середню ві-
           дстань спостережень ( в перехресної перевірки або тестування)
           до  їх  кластерних  центрів  (при  К-середній  кластеризації);  для
           EM кластеризації, відповідна еквівалента міра буде середня не-
           гативна (log-) вірогідність обчислена для спостережень в зраз-
           ках тестування.




                                            189
   185   186   187   188   189   190   191   192   193   194   195