Page 52 - 4703

P. 52

точки. Ймовірно, цілком відповідною для цього здасться кри-
ва, зображена на графіку - вона (приблизно) має потрібну
форму і дозволяє оцінити значення Y у разі, якщо вхідне зна-
чення лежить в інтервалі, який охоплюється суцільною части-
ною кривої, - в цій області можлива інтерполяція.
Але що робити, якщо вхідне значення розташоване
істотно правіше наявних точок? У таких випадках можливі два
підходи до оцінки значення Y. Перший варіант - екстрапо-
ляція: ми продовжуємо підігнану криву управо. У другому
варіанті ми говоримо, що у нас немає достатньої інформації
для осмисленої оцінки цього значення, і тому як оцінку ми
приймаємо среднне значення усіх виходів (у відсутність якої-
небудь інформації це може виявитися кращим виходом з по-
ложення).
Припустимо, наприклад, що ми використовуємо бага-
тошаровий персептрон (MLP). Застосування мінімакса за опи-
саною вище схемою дуже обмежувальне. По-перше, крива не
екстраполюватиметься, як би близько ми не знаходилися до
навчальних даних (насправді ж, якщо ми лише трохи вийшли
за область повчальних даних, екстраполяція цілком виправда-
на). По-друге, оцінка по середньому також не виконувати-
меться: замість цього братиметься мінімум або максимум див-
лячись по тому, росла або убувала в цьому місці оцінювана
крива.
Щоб уникнути цих недоліків в MLP використовується
ряд прийомів:
1) По-перше, логістичну функцію активації у вихідному
шарі можна замінити на лінійну, яка не міняє рівня активації
(функції активації міняються тільки у вихідному шарі; у
проміжних шарах як і раніше залишаються логістичні і гіпер-
болічні функції активації). Лінійна функція активації не
насичується і тому здатна екстраполювати (при цьому
логістичні функції попередніх рівнів все-таки припускають
насичення на більш високих рівнях). Лінійні функції активації
в MLP можуть викликати певні обчислювальні труднощі в
алгоритмі зворотного поширення, тому при його використанні
слід брати малі (менше 0.1) швидкості навчання. Описаний
підхід придатний для цілей екстраполяції.
2) По-друге, можна змінити цільовий діапазон мінімакс-
ної масштабуючої функції (наприклад, зробити його

47 48 49 50 51 52 53 54 55 56 57