Page 57 - 4703
P. 57

трьох  наборах,  кожен  з  яких  може  бути  навчальним,  кон-
           трольним або тестовим. Можна сказати, що дані "розтікають-
           ся"  по  навчальному,  контрольному  і  тестовому  множинам.
           Щоб повністю розділити ці множини, довелося б сформувати
           окремі  блоки  навчальних,  контрольних  і  тестових  спостере-
           жень, відокремлені один від одного достатнім числом спосте-
           режень, що не враховуються.
                Декілька перших спостережень можна використати тіль-
           ки в якості вхідних даних. При виборі спостережень в часово-
           му  ряду  номер  спостереження  завжди  відповідає  вихідному
           значенню. Тому перші декілька спостережень взагалі немож-
           ливо вибрати (для цього було б потрібно ще декілька спосте-
           режень,  розташованих  перед  першим  спостереженням  в  по-
           чаткових даних), і вони автоматично позначаються як такі,що
           не враховуються.




                1.6 Відбір змінних і пониження розмірності

                Досі, говорячи про побудову і конструювання мережі, ми
           припускали, що вхідний і вихідний шари задані, тобто, що ми
           вже  знаємо,  які  змінні  подаватимуться  на  вхід  мережі,  і  що
           буде  її  виходом.  Те,  які  змінні  будуть  вихідними,  відомо
           завжди  (принаймні  у  разі  керованого  навчання).  Що  ж  до
           вхідних змінних, їх правильний вибір іноді представляє значні
           труднощі.  Часто  ми  не  знаємо  заздалегідь,  які  з  вхідних
           змінних дійсно корисні для вирішення завдання, і вибір хоро-
           шої множини входів буває ускладнений цілим рядом обставин
           :
                 Прокляття  розмірності.  Кожен  додатковий  вхідний
           елемент мережі - це нова розмірність в просторі даних. З цієї
           точки зору стає зрозуміло наступне: щоб досить щільно "засе-
           лити" N-вимірний простір і "побачити" структуру даних, треба
           мати досить багато точок. Необхідне число точок швидко зро-
                                                                      N
           стає з ростом розмірності простору (грубо кажучи, як 2  для
           більшості методів). Більшість типів нейронних мереж (зокре-
           ма, багатошаровий персептрон MLP)  у  меншій мірі стражда-
           ють від прокляття розмірності, чим інші методи, тому що ме-

                                          57
   52   53   54   55   56   57   58   59   60   61   62