Page 80 - 4703
P. 80
Для навчання алгоритм пошуку мережі розбиває (за умо-
вчанням) усю множину спостережень на Training - Учбову,
Selection - Контрольну і Test - Тестову множини. Кожна з цих
множин несе свою важливу функцію.
На Training множині відбувається безпосереднє навчання
мережі, тобто зміна вагових коефіцієнтів кожного з нейронів
пропорційно помилці на виході. Відповідно усі спостереження
з цієї множини багаторазово беруть участь в процедурі зміни
вагових коефіцієнтів вченої мережі.
Спостереження Selection множини в процедурі зміни ва-
гів нейронів не беруть участь. Основна функція цих даних - в
постійному контролі здатності мережі до узагальнення даних,
на яких вона не вчилася. Така процедура називається крос -
перевіркою. На кожному кроці алгоритму навчання розрахо-
вується помилка для усього набору спостережень з контроль-
ної множини і порівнюється з помилкою на учбовій множині.
Природно, що ці помилки відрізнятимуться. Як правило, по-
милка на контрольній множині перевищує помилку на учбовій
множині. Проте, важливий не сам факт відмінності, а спосте-
режувана тенденція помилок.
Дійсно, алгоритм навчання націлений на мінімізацію по-
милки на виході мережі. Відповідно, помилка на учбовій мно-
жині просто зобов'язана в середньому зменшуватися. Але ні-
хто не обіцяє спаду помилки на контрольній множині. Отже,
якщо спостерігається картина зростання помилки на контро-
льній множині, тоді як вона зменшується на учбовій множині,
то це говорить про те, що мережа "зазубрила" усі пред’явлені
спостереження і не здатна до узагальнення. Такий стан нази-
вається перенавчанням. Бажано перенавчання уникати. Алго-
ритм Intelligent Problem Solver самостійно відстежує перена-
вчання і при завершенні навчання повертає мережу в найкра-
щий стан (Retain Best Network - Відновити найкращу мережу).
Test множина не бере участь в навчанні взагалі. Вона ви-
користовується після завершення навчання для розрахунку
продуктивності отриманої мережі і її помилки на даних, про
які "їй взагалі нічого невідомо". Хорошою мережею можна
вважати ту мережу, у якої помилка однаково мала на усіх
трьох підмножинах.
В результаті, кожна навчена і перевірена нейронна кон-
фігурація описується рядком в інформаційному полі діалого-
80