Page 28 - 4703
P. 28

і застосування нелінійних функцій активації. На цьому рисун-
           ку  зображена  типова  поверхня  відгуку  для  мережі  з  одним
           проміжним шаром, що складається з двох елементів, і одним
           вихідним  елементом  для  класичного  завдання  "виключаюче
           або". Дві різних сигмоїдні поверхні об'єднані в одну поверх-
           ню, що має форму букви "U".
                Перед початком навчання мережі вагам і порогам випад-
           ковим чином привласнюються невеликі за величиною почат-
           кові значення. Тим самим відгуки окремих елементів мережі
           мають малий нахил і орієнтовані хаотично - фактично вони не
           пов'язані один з одним. У міру того, як відбувається навчання,
           поверхні відгуку елементів мережі обертаються і зрушуються
           в потрібне положення, а значення ваг збільшуються, оскільки
           вони  повинні  моделювати  окремі  ділянки  цільової  поверхні
           відгуку.
                У завданнях класифікації вихідний елемент повинен ви-
           давати  сильний  сигнал  у  разі,  якщо  це  спостереження  нале-
           жить до класу, що цікавить нас, і слабкий  - в протилежному
           випадку. Інакше кажучи, цей елемент повинен прагнути змо-
           делювати  функцію,  рівну  одиниці  в  тій  області  простору
           об'єктів, де розташовуються об'єкти потрібного класу, і рівну
           нулю  поза  цією  областю.  Така  конструкція  відома  як  дис-
           кримінантна  функція  в  завданнях  розпізнавання.  "Ідеальна"
           дискримінантна функція повинна мати плоску структуру, так
           щоб  точки  відповідної  поверхні  розташовувалися  або  на  ну-
           льовому рівні або на висоті одиниці.
                Якщо  мережа  не  містить  прихованих  елементів,  то  на
           виході вона може моделювати тільки одинарний "сигмоїдний
           схил": точки, що знаходяться по одну його сторону, розташо-
           вуються низько, по іншу - високо. При цьому завжди існува-
           тиме  область  між  ними  (на  схилі),  де  висота  набуває
           проміжних значень, але у міру збільшення ваг ця область зву-
           жуватиметься.
                Такий сигмоїдний схил фактично працює як лінійна дис-
           кримінантна функція. Точки, що лежать по одну сторону схи-
           лу,  класифікуються  як  такі,що  належать  потрібному  класу,  а
           що  лежать  по  іншу  сторону  -  як  такі,що  не  належать.  Отже,
           мережа без прихованих шарів може служити класифікатором
           тільки  в  лінійно-віддільних  завданнях  (коли  можна  провести


                                          28
   23   24   25   26   27   28   29   30   31   32   33