Page 37 - 4703
P. 37

гаусова функція. Якщо гаусові функції вибрані занадто гост-
           рими, мережа не інтерполюватиме дані між відомими точками
           і втратить здатність до узагальнення. Якщо ж гаусові функції
           узяті  занадто  широкими,  мережа  не  сприйматиме  дрібні  де-
           талі.  Насправді  сказане  -  ще  одна  форма  прояву  дилеми  пе-
           ре/недонавчання.  Як  правило,  відхилення  вибираються  так,
           щоб ковпак кожного гаусової функцій захоплював "декілька"
           сусідніх центрів. Для цього є декілька методів:
                Явний. Відхилення задаються користувачем.
                Ізотропний.  Відхилення  береться  однаковим  для  усіх
           елементів і визначається евристично з урахуванням кількості
           радіальних  елементів  і  об'єму  простору,  що  покривається
           (Haykin, 1994).
                K  найближчих  сусідів.  Відхилення  кожного  елементу
           встановлюється  (індивідуально)  рівним  середній  відстані  до
           його K найближчих сусідів. Тим самим відхилення буде мен-
           ше в тих частинах простору, де точки розташовані густо - тут
           добре враховуватимуться деталі - а там, де точок мало, відхи-
           лення будуть великими (і буде робиться інтерполяція).
                Після  того,  як  обрані  центри  і  відхилення,  параметри
           вихідного  шару  оптимізуються  за  допомогою  стандартного
           методу лінійної оптимізації - алгоритму псевдозворотних мат-
           риць.
                Можуть  бути  побудовані  різні  гібридні  різновиди
           радіальних базисних функцій. Наприклад, вихідний шар може
           мати нелінійні функції активації і тоді для його навчання ви-
           користовується який-небудь з алгоритмів навчання багатоша-
           рових персептронів, наприклад, метод зворотного поширення.
           Можна також навчати радіальний (прихований) шар за допо-
           могою  алгоритму  навчання  мережі  Кохонена  -  це  ще  один
           спосіб  розмістити  центри  так,  щоб  вони  відбивали  розташу-
           вання даних.

                1.2.5 Імовірнісна нейронна мережа

                У  попередньому  розділі,  говорячи  про  завдання  кла-
           сифікації, ми коротко згадали про те, що виходи мережі можна
           з користю інтерпретувати як оцінки вірогідності того, що еле-
           мент  належить  деякому  класу,  і  мережа  фактично  вчиться
           оцінювати функцію щільності вірогідності. Аналогічна корис-

                                          37
   32   33   34   35   36   37   38   39   40   41   42