Page 24 - 4143
P. 24
Від того, наскільки якісно буде виконаний етап навчання НС,
залежить здатність мережі вирішувати поставлені перед нею
проблеми під час експлуатації. Теорія навчання розглядає три
фундаментальні властивості, пов'язані з навчанням по прикладах:
місткість, складність зразків і обчислювальна складність. Під
місткістю розуміється, скільки зразків може запам'ятати мережа і
які функції і межі ухвалення рішень можуть бути на ній сформовані.
Складність зразків визначає число навчальних прикладів,
необхідних для досягнення здатності мережі до узагальнення.
Важливою характеристикою є час затрачуваний на навчання. Як
правило, час навчання і якість навчання зв'язані зворотною
залежністю і вибирати ці параметри доводиться на основі
компромісу.
Множина різних алгоритмів навчання діляться на два великі
класи: детермінованих і стохастичних алгоритмів [2]. В
першому з них настроювання ваг є жорсткою послідовністю дій, в
другому - вона проводиться на основі дій, що підкоряються деякому
випадковому процесу.
Існують три парадигми навчання: "з вчителем", "без вчителя"
(самонавчання) і змішана.
Навчання з вчителем припускає, що для кожного вхідного
вектора існує цільовий вектор, що є необхідним виходом. Разом
вони називаються навчальною парою. Звичайно мережа навчається
на деякому числі таких навчальних пар.
Коли в мережі тільки один шар, алгоритм її навчання з вчителем є
очевидним, оскільки правильні вихідні стані нейронів єдиного
шару явно відомі, і настроювання синаптичних зв'язків йде в
напрямі, що мінімізує помилку на виході мережі.
У багатошарових же мережах оптимальні вихідні значення
нейронів всіх шарів, окрім останнього, як правило, не відомі, і двох-
або багатошарову вже неможливо навчити, керуючись тільки
величинами помилок на виходах цієї мережі. Один з варіантів
рішення цієї проблеми - розробка наборів вихідних сигналів,
відповідних вхідним, для кожного шару , що, звичайно, є дуже
трудомісткою операцією і не завжди здійснено. Другий варіант –
динамічне настроювання вагових коефіцієнтів синапсів, в ході
якого вибираються, як правило, найслабкіші зв'язки, які
змінюються на малу величину в ту або іншу сторону. Зберігаються
ж тільки ті зміни, які спричинили зменшення помилки на виході
24