Page 32 - 4703
P. 32
но встановився в деякій точці, треба вибирати дуже малу
швидкість навчання).
Метод довірчих областей заснований на наступній ідеї:
замість того, щоб рухатися в певному напрямі пошуку, припу-
стимо, що поверхня має досить просту форму, так що точку
мінімуму можна знайти (і стрибнути туди) безпосередньо.
Спробуємо змоделювати це і подивитися, наскільки хорошою
виявиться отримана точка. Вид моделі припускає, що поверх-
ня має хорошу і гладку форму (наприклад, є параболоїдом) -
таке припущення виконане поблизу точок мінімуму. Далеко
від них це припущення може сильно порушуватися, так що
модель вибиратиме для чергового просування абсолютно не ті
точки. Правильно працювати така модель буде тільки в деякій
околиці цих точки, причому розміри цієї околиці заздалегідь
невідомі. Тому виберемо в якості наступної точки для просу-
вання щось проміжне між точкою, яку пропонує наша модель,
і точкою, яка вийшла б по звичайному методу градієнтного
спуску. Якщо ця нова точка виявилася хорошою, пересунемо-
ся в неї і посилимо роль нашої моделі у виборі чергових то-
чок; якщо ж точка виявилася поганою, в неї не переміщатиме-
мося і збільшимо роль методу градієнтного спуску при виборі
чергової точки (а також зменшимо крок). У заснованому на цій
ідеї методі Левенберга-Маркара передбачається, що початко-
ве відображення є локально лінійним (і тоді поверхня помилок
буде параболоїдом).
Метод Левенберга-Маркара - найшвидший алгоритм
навчання з усіх, які реалізовані в пакеті ST Neural Networks,
але, на жаль, на його використання є ряд важливих обмежень.
Він застосовний тільки для мереж з одним вихідним елемен-
том, працює тільки з функцією помилок "сума квадратів" і
2
вимагає пам'яті порядку W (де W - кількість ваг у мережі; то-
му для великих мереж він погано застосовний). Метод зв'яза-
них градієнтів майже такий само ефективний, як і цей метод, і
не пов'язаний подібними обмеженнями.
При усьому сказаному метод зворотного поширення та-
кож зберігає своє значення, причому не лише для тих випад-
ків, коли вимагається швидко знайти рішення (і не потрібно
особливу точність). Йому слід віддати перевагу, коли об'єм
даних дуже великий, і серед даних є надмірні. Завдяки тому,
що в методі зворотного поширення коригування помилки
32