Page 40 - 4524
P. 40
Поверхня станів має складну будову і досить неприємні
властивості, зокрема, наявність локальних мінімумів (точки,
найнижчі в своєму певному околі, але вищі від глобального
мінімуму), пласкі ділянки, сідлові точки і довгі вузькі яри.
Аналітичними засобами неможливо визначити розташування
глобального мінімуму на поверхні станів, тому навчання ней-
ромережі по суті полягає в дослідженні цієї поверхні. Відшто-
вхуючись від початкової конфігурації ваг і порогів (від випад-
ково обраної точки на поверхні), алгоритм навчання поступо-
во відшукує глобальний мінімум. Обчислюється вектор граді-
єнту поверхні похибок, який вказує напрямок найкоротшого
спуску по поверхні з заданої точки. Якщо трошки просуну-
тись по ньому, похибка зменшиться. Зрештою алгоритм зупи-
няється в нижній точці, що може виявитись лише локальним
мінімумом (в ідеальному випадку - глобальним мінімумом).
Складність тут полягає у виборі довжини кроків. При
великій довжині кроку збіжність буде швидшою, але є небез-
пека перестрибнути рішення, або піти в неправильному на-
прямку. При маленькому кроці, правильний напрямок буде
виявлений, але зростає кількість ітерацій. На практиці розмір
кроку береться пропорційним крутизні схилу з деякою конс-
тантою - швидкістю навчання. Правильний вибір швидкості
навчання залежить від конкретної задачі і здійснюється дослі-
дним шляхом. Ця константа може також залежати від часу,
зменшуючись по мірі просування алгоритму.
Алгоритм діє ітеративне, його кроки називаються епо-
хами. На кожній епосі на вхід мережі по черзі подаються всі
навчальні приклади, вихідні значення мережі порівнюються з
бажаними значеннями і обчислюється похибка. Значення по-
хибки, а також градієнту поверхні станів використовують для
корекції ваг, і дії повторюються. Процес навчання припиня-
ється або коли пройдена визначена кількість епох, або коли
похибка досягає визначеного рівня малості, або коли похибка
перестає зменшуватись (користувач переважно сам вибирає
потрібний критерій зупинки).
Алгоритм навчання мережі
1. Ініціалізація мережі: вагові коефіцієнти і зсуви мережі
приймають малі випадкові значення.
39