Page 31 - 4703

P. 31

стережень, узятих у випадковому порядку, але в результаті
виходить досить хороша апроксимація спуску по сукупній
поверхні помилок. Існують і інші алгоритми навчання MLP,
проте усі вони використовують ту або іншу стратегію швидко-
го просування до точки мінімуму.
У деяких завданнях буває доцільно використати більш
складніші методи - нелінійної оптимізації. У пакеті ST Neural
Networks реалізовані два подібні методи: методи спуску по
зв'язаних градієнтах і Левенберга -Маркара, дуже вдалі
варіанти реалізації двох типів алгоритмів: лінійного пошуку і
довірчих областей.
Алгоритм лінійного пошуку діє таким чином: вибираєть-
ся який-небудь розумний напрям руху по багатовимірній по-
верхні. У цьому напрямі проводиться лінія, і на ній шукається
точка мінімуму (це робиться відносно просто за допомогою
того або іншого варіанту методу ділення відрізку навпіл);
потім усе повторюється спочатку. Що в даному випадку слід
вважати "розумним напрямом"? Очевидною відповіддю є
напрям швидкого спуску (саме так діє алгоритм зворотного
поширення). Насправді цей начебто очевидний вибір не зана-
дто вдалий. Після того, як був знайдений мінімум по деякій
прямій, наступна лінія, вибрана для найкоротшого спуску,
може "зіпсувати" результати мінімізації по попередньому
напряму (навіть на такій простій поверхні, як параболоїд, мо-
же знадобитися дуже велике число кроків лінійного пошуку).
Розумніше було б вибирати "не заважаючий один одному"
напряму спуску - так ми приходимо до методу зв'язаних
градієнтів.
Метод зв'язаних градієнтів. Ідея методу полягає в
наступному: оскільки ми знайшли точку мінімуму уздовж де-
якої прямої, похідна по цьому напряму дорівнює нулю. Зв'яза-
ний напрям вибирається так, щоб ця похідна і далі залишалася
нульовою - в припущенні, що поверхня має форму парабо-
лоїда (чи, грубо кажучи, є "хорошою і гладкою "). Якщо ця
умова виконана, то для досягнення точки мінімуму досить
буде N епох. На реальних, складно влаштованих поверхнях у
міру ходу алгоритму умова зв'язаності псується, але проте та-
кий алгоритм, як правило, вимагає набагато меншого числа
кроків, чим метод зворотного поширення, і дає кращу точку
мінімуму (для того, щоб алгоритм зворотного поширення точ-

26 27 28 29 30 31 32 33 34 35 36