Page 190 - 4511
P. 190
(data mining). Загальна метафора data mining передбачає ситу-
ацію, в якій аналітик шукає корисні структури і "самородки" в
даних, як правило, без будь-яких сильних апріорних очікувань
того, що міг би знайти аналітик (на відміну від іншого підходу
наукових досліджень - перевірки гіпотез) . На практиці аналітик
зазвичай може не знати заздалегідь, скільки кластерів може
бути в даних. З цієї причини, деякі програми включають в себе
реалізацію алгоритму V- кратної перехресної перевірки для ав-
томатичного визначення кількості кластерів у даних.
Цей унікальний алгоритм є надзвичайно корисним у всіх
загальних завдачах "розпізнавання образів" - визначити кіль-
кість сегментів ринку в науковому дослідженні маркетингу, чи-
сло кластерів різних медичних симптомів, число різних типів
(кластерів) документів в text mining, кількість погодних умов в
метеорологічних досліджень, число дефектних візерунки на
кремнієвих пластин і т.д.
Застосування алгоритму V- кратної перехресної пере-
вірки для кластеризації . Алгоритм V- кратної перехресної пе-
ревірки описаний більш детально в модулях Classification Trees
and General Classification і Regression Trees (GC&RT) . Загальна
ідея цього методу полягає в поділі загальної вибірки на V скла-
док. Цей тип аналізу послідовно застосовується до спостере-
жень, що належать до V- 1 складок (навчальна вибірка) , а потім
результати аналізу застосовуються до вибірки V, яка не була
використана для оцінки параметрів, побудови дерева класифі-
кації, визначення кластерів тощо - це вибірка для тестування),
щоб обчислити деякий індекс прогностичної валідності. Ре-
зультати для V реплікацій агрегуються (в середньому), отриму-
ючи єдину міру стабільності відповідної моделі, тобто, придат-
ності моделі для прогнозування нових спостережень.
Загалом, ми можемо застосувати метод V- кратної перех-
ресної перевірки в діапазоні числа кластерів в методах К-сере-
дніх або EM кластеризації, і спостерігати отриману середню ві-
дстань спостережень ( в перехресної перевірки або тестування)
до їх кластерних центрів (при К-середній кластеризації); для
EM кластеризації, відповідна еквівалента міра буде середня не-
гативна (log-) вірогідність обчислена для спостережень в зраз-
ках тестування.
189