Page 22 - 4703
P. 22
можна чекати від мережі, коли їй подаватимуться абсолютно
нові спостереження. Інакше кажучи, ми хотіли б, щоб нейрон-
на мережа мала здатність узагальнювати результат на нові
спостереження. Насправді мережа навчається мінімізувати
помилку на навчальній множині і у відсутністі ідеальної і
нескінченно великої навчальної множини це зовсім не те ж
саме, що мінімізувати "справжню" помилку на поверхні поми-
лок в заздалегідь невідомій моделі явища (Bishop, 1995).
Найсильніше ця відмінність проявляється в проблемі пе-
ренавчання або занадто близької підгонки. Це явище простіше
буде продемонструвати не для нейронної мережі, а на при-
кладі апроксимації за допомогою поліномів - при цьому суть
явища абсолютно та ж.
Поліном (чи многочлен) - цей вираз, що містить тільки
константи і цілі степені незалежної змінної. Ось приклади:
y=2x+3
2
y=3x +4x+1
Графіки поліномів можуть мати різну форму, причому
чим вище степінь многочлена (і, тим самим, чим більше членів
в нього входить), тим більше складною може бути ця форма.
Якщо у нас є деякі дані, ми можемо поставити мету підігнати
до них поліноміальну криву (інтерполяційну модель) і отри-
мати, таким чином, пояснення для наявної залежності. Наші
дані можуть бути зашумлены, тому не можна вважати, що
краща модель задається кривою, яка в точності проходить че-
рез усі наявні точки. Поліном низького порядку може бути
недостатньо гнучким засобом для апроксимації даних, тоді як
поліном високого порядку може виявитися занадто гнучким і
точно наслідуватиме дані, набуваючи при цьому хитромудрої
форми, що не має ніякого відношення до форми справжньої
залежності.
Нейронна мережа стикається з та-
кою самою трудністю. Мережі з
великим числом ваг моделюють
складніші функції і, отже, схильні
до перенавчання. Мережа ж з не-
великим числом ваг може вияви-
тися недостатньо гнучкою, щоб
22