Page 20 - 4703
P. 20

-  гладкою  поверхнею,  схожою  на  частину  поверхні  сфери,  з
           єдиним мінімумом. У такій ситуації локалізувати цей мінімум
           досить просто.
                У разі нейронної мережі поверхня помилок має набагато
           складнішу будову і має ряд неприємних властивостей, зокре-
           ма,  може  мати  локальні  мінімуми  (точки,  найнижчі  в  деякій
           своїй  околиці,  але  які  лежать  вище  за  глобальний  мінімум),
           плоскі ділянки, седловидні точки і довгі вузькі яри.
                Аналітичними засобами неможливо визначити положен-
           ня глобального мінімуму на поверхні помилок, тому навчання
           нейронної мережі по суті полягає в дослідженні поверхні по-
           милок.  Відштовхуючись  від  випадкової  початкової  конфігу-
           рації ваг і порогів (тобто випадково узятої точки на поверхні
           помилок), алгоритм навчання поступово відшукує глобальний
           мінімум. Як правило, для цього обчислюється градієнт (нахил)
           поверхні помилок в цій точці, а потім ця інформація викори-
           стовується для просування вниз по схилу. Врешті-решт алго-
           ритм зупиняється в нижній точці, яка може виявитися усього
           лише  локальним  мінімумом  (а  якщо  повезе  -  глобальним
           мінімумом).

                Алгоритм зворотного поширення
                Найвідоміший  варіант  алгоритму  навчання  нейронної
           мережі  -  так  званий  алгоритм  зворотного  поширення  (back
           propagation). Існують сучасні алгоритми другого порядку, такі
           як  метод  зв'язаних  градієнтів  і  метод  Левенберга-Маркара
           (обоє вони реалізовані в пакеті ST Neural Networks), які на ба-
           гатьох  завданнях  працюють  істотно  швидше  (іноді  на  поря-
           док). Алгоритм зворотного поширення найбільш простий для
           розуміння, а в деяких випадках він має певні переваги.
                Розроблені  також  евристичні  модифікації  цього  алго-
           ритму, добре працюючі для певних класів завдань – алгоритм
           швидкого  поширення    і  дельта-дельта  з  рисою  -  обоє  вони
           також реалізовані в пакеті ST Neural Networks.
                У алгоритмі зворотного поширення обчислюється вектор
           градієнта поверхні помилок. Цей вектор вказує напрям найко-
           ротшого  спуску  по  поверхні  з  деякої  точки,  тому  якщо  ми
           "трохи"  просунемося  по  ньому,  помилка  зменшиться.
           Послідовність таких кроків (що сповільнюється у міру набли-
           ження до дна) врешті-решт приведе до мінімуму того або ін-

                                          20
   15   16   17   18   19   20   21   22   23   24   25