Page 52 - 4703
P. 52

точки. Ймовірно, цілком відповідною для цього здасться кри-
           ва,  зображена  на  графіку  -  вона  (приблизно)  має  потрібну
           форму і дозволяє оцінити значення Y у разі, якщо вхідне зна-
           чення лежить в інтервалі, який охоплюється суцільною части-
           ною кривої, - в цій області можлива інтерполяція.
                Але  що  робити,  якщо  вхідне  значення  розташоване
           істотно правіше наявних точок? У таких випадках можливі два
           підходи  до  оцінки  значення  Y.  Перший  варіант  -  екстрапо-
           ляція:  ми  продовжуємо  підігнану  криву  управо.  У  другому
           варіанті  ми  говоримо,  що  у  нас  немає  достатньої  інформації
           для  осмисленої  оцінки  цього  значення,  і  тому  як  оцінку  ми
           приймаємо среднне значення усіх виходів (у відсутність якої-
           небудь інформації це може виявитися кращим виходом з по-
           ложення).
                Припустимо,  наприклад,  що  ми  використовуємо  бага-
           тошаровий персептрон (MLP). Застосування мінімакса за опи-
           саною вище схемою дуже обмежувальне. По-перше, крива не
           екстраполюватиметься,  як  би  близько  ми  не  знаходилися  до
           навчальних даних (насправді ж, якщо ми лише трохи вийшли
           за область повчальних даних, екстраполяція цілком виправда-
           на).  По-друге,  оцінка  по  середньому  також  не  виконувати-
           меться: замість цього братиметься мінімум або максимум див-
           лячись  по  тому,  росла  або  убувала  в  цьому  місці  оцінювана
           крива.
                Щоб  уникнути  цих  недоліків  в  MLP  використовується
           ряд прийомів:
                1) По-перше, логістичну функцію активації у вихідному
           шарі можна замінити на лінійну, яка не міняє рівня активації
           (функції  активації  міняються  тільки  у  вихідному  шарі;  у
           проміжних шарах як і раніше залишаються логістичні і гіпер-
           болічні  функції  активації).  Лінійна  функція  активації  не
           насичується  і  тому  здатна  екстраполювати  (при  цьому
           логістичні  функції  попередніх  рівнів  все-таки  припускають
           насичення на більш високих рівнях). Лінійні функції активації
           в  MLP  можуть  викликати  певні  обчислювальні  труднощі  в
           алгоритмі зворотного поширення, тому при його використанні
           слід  брати  малі  (менше  0.1)  швидкості  навчання.  Описаний
           підхід придатний для цілей екстраполяції.
                2) По-друге, можна змінити цільовий діапазон мінімакс-
           ної  масштабуючої  функції  (наприклад,  зробити  його

                                          52
   47   48   49   50   51   52   53   54   55   56   57