Page 23 - 4703
P. 23

змоделювати  наявну  залежність.  Наприклад,  мережа  без
           проміжних  шарів  насправді  моделює  звичайну  лінійну
           функцію.
                Як же вибрати "правильну" міру складності для мережі?
           Майже завжди складніша мережа дає меншу помилку, але це
           може  свідчити  не  про  хорошу  якість  моделі,  а  про  перенав-
           чання.
                Відповідь  полягає  в  тому,  щоб  використати  механізм
           контрольної кросс-перевірки. Ми резервуємо частину навчаль-
           них спостережень і не використовуємо їх в навчанні по алго-
           ритму  зворотного  поширення.  Замість  цього,  у  міру  роботи
           алгоритму, вони використовуються для незалежного контролю
           результату.  На  самому  початку  роботи  помилка  мережі  на
           навчальній і контрольній множині буде однаковою (якщо вони
           істотно  відрізняються,  то,  ймовірно,  розбиття  усіх  спостере-
           жень на дві множини було неоднорідним). У міру того, як ме-
           режа навчається, помилка навчання, природно, убуває, і, поки
           навчання зменшує дійсну функцію помилок, помилка на кон-
           трольній  множині  також  убуватиме.  Якщо  ж  контрольна  по-
           милка перестала убувати або навіть стала рости, це вказує на
           те,  що  мережа  почала  занадто  близько  апроксимувати  дані  і
           навчання  слід  зупинити  (у  пакеті  ST  Neural  Networks  можна
           задати автоматичну зупинку навчання при появі ефекту пере-
           навчання).  Це  явище  занадто  точної  апроксимації  в  процесі
           навчання і називається перенавчанням. Якщо таке сталося, то
           зазвичай  радять  зменшити  число  прихованих  елементів  і/або
           шарів,  бо  мережа  є  занадто  потужною  для  цього  завдання.
           Якщо ж мережа, навпаки, була узята недостатньо багатою для
           того,  щоб  моделювати  наявну  залежність,  то  перенавчання,
           швидше  за  все,  не  станеться,  і  обидві  помилки  -  навчання  і
           перевірка - не досягнуть достатнього рівня крихти.
                Описані  проблеми  з  локальними  мінімумами  і  вибором
           розміру мережі призводять до того, що при практичній роботі
           з нейронними мережами, як правило, доводиться експеримен-
           тувати з великим числом різних мереж, іноді навчаючи кожну
           з  них  по  декілька  разів  (щоб  не  бути  введеним  в  оману  ло-
           кальними  мінімумами)  і  порівнюючи  отримані  результати.
           Головним показником якості результату є тут контрольна по-
           милка.  При цьому,  відповідно  до  загальнонаукового  принци-
           пу, згідно з яким при інших рівних умовах слід віддати пере-

                                          23
   18   19   20   21   22   23   24   25   26   27   28