Page 37 - 4703
P. 37
гаусова функція. Якщо гаусові функції вибрані занадто гост-
рими, мережа не інтерполюватиме дані між відомими точками
і втратить здатність до узагальнення. Якщо ж гаусові функції
узяті занадто широкими, мережа не сприйматиме дрібні де-
талі. Насправді сказане - ще одна форма прояву дилеми пе-
ре/недонавчання. Як правило, відхилення вибираються так,
щоб ковпак кожного гаусової функцій захоплював "декілька"
сусідніх центрів. Для цього є декілька методів:
Явний. Відхилення задаються користувачем.
Ізотропний. Відхилення береться однаковим для усіх
елементів і визначається евристично з урахуванням кількості
радіальних елементів і об'єму простору, що покривається
(Haykin, 1994).
K найближчих сусідів. Відхилення кожного елементу
встановлюється (індивідуально) рівним середній відстані до
його K найближчих сусідів. Тим самим відхилення буде мен-
ше в тих частинах простору, де точки розташовані густо - тут
добре враховуватимуться деталі - а там, де точок мало, відхи-
лення будуть великими (і буде робиться інтерполяція).
Після того, як обрані центри і відхилення, параметри
вихідного шару оптимізуються за допомогою стандартного
методу лінійної оптимізації - алгоритму псевдозворотних мат-
риць.
Можуть бути побудовані різні гібридні різновиди
радіальних базисних функцій. Наприклад, вихідний шар може
мати нелінійні функції активації і тоді для його навчання ви-
користовується який-небудь з алгоритмів навчання багатоша-
рових персептронів, наприклад, метод зворотного поширення.
Можна також навчати радіальний (прихований) шар за допо-
могою алгоритму навчання мережі Кохонена - це ще один
спосіб розмістити центри так, щоб вони відбивали розташу-
вання даних.
1.2.5 Імовірнісна нейронна мережа
У попередньому розділі, говорячи про завдання кла-
сифікації, ми коротко згадали про те, що виходи мережі можна
з користю інтерпретувати як оцінки вірогідності того, що еле-
мент належить деякому класу, і мережа фактично вчиться
оцінювати функцію щільності вірогідності. Аналогічна корис-
37