Page 28 - 4703
P. 28
і застосування нелінійних функцій активації. На цьому рисун-
ку зображена типова поверхня відгуку для мережі з одним
проміжним шаром, що складається з двох елементів, і одним
вихідним елементом для класичного завдання "виключаюче
або". Дві різних сигмоїдні поверхні об'єднані в одну поверх-
ню, що має форму букви "U".
Перед початком навчання мережі вагам і порогам випад-
ковим чином привласнюються невеликі за величиною почат-
кові значення. Тим самим відгуки окремих елементів мережі
мають малий нахил і орієнтовані хаотично - фактично вони не
пов'язані один з одним. У міру того, як відбувається навчання,
поверхні відгуку елементів мережі обертаються і зрушуються
в потрібне положення, а значення ваг збільшуються, оскільки
вони повинні моделювати окремі ділянки цільової поверхні
відгуку.
У завданнях класифікації вихідний елемент повинен ви-
давати сильний сигнал у разі, якщо це спостереження нале-
жить до класу, що цікавить нас, і слабкий - в протилежному
випадку. Інакше кажучи, цей елемент повинен прагнути змо-
делювати функцію, рівну одиниці в тій області простору
об'єктів, де розташовуються об'єкти потрібного класу, і рівну
нулю поза цією областю. Така конструкція відома як дис-
кримінантна функція в завданнях розпізнавання. "Ідеальна"
дискримінантна функція повинна мати плоску структуру, так
щоб точки відповідної поверхні розташовувалися або на ну-
льовому рівні або на висоті одиниці.
Якщо мережа не містить прихованих елементів, то на
виході вона може моделювати тільки одинарний "сигмоїдний
схил": точки, що знаходяться по одну його сторону, розташо-
вуються низько, по іншу - високо. При цьому завжди існува-
тиме область між ними (на схилі), де висота набуває
проміжних значень, але у міру збільшення ваг ця область зву-
жуватиметься.
Такий сигмоїдний схил фактично працює як лінійна дис-
кримінантна функція. Точки, що лежать по одну сторону схи-
лу, класифікуються як такі,що належать потрібному класу, а
що лежать по іншу сторону - як такі,що не належать. Отже,
мережа без прихованих шарів може служити класифікатором
тільки в лінійно-віддільних завданнях (коли можна провести
28