Page 63 - 4268
P. 63

на  навчальній  множині.  Однак,  важливий  не  сам  факт
                  відмінності, а спостерігається тенденція помилок.
                        Дійсно,  алгоритм  навчання  націлений  на  мінімізацію
                  помилки  на  виході  мережі.  Відповідно,  помилка  на  навчальній

                  множині  просто  зобов'язана  в  середньому  зменшуватися.  Але
                  ніхто  не  обіцяє  спаду  помилки  на  перевірочній  множині.  Отже,
                  якщо        спостерігається           картина        зростання         помилки          на

                  контрольному  безлічі,  у  той  час  як  вона  зменшується  на
                  навчальній  множині,  то  це  говорить  про  те,  що  мережа
                  "зазубрила"  усі  пред'явлені  їй  спостереження  і  не  здатна  до
                  узагальнення.  Такий  стан  називається  перенавчанням.  Бажано

                  перенавчання  уникати.  Алгоритм  Intelligent  Problem  Solver
                  самостійно відстежує перенавчання та при завершенні навчання
                  повертає  мережу  в  найкращий  стан  (Retain  Best  Network  -

                  Відновити найкращу мережу).
                        Тестова  множина  не  бере  участь  у  навчанні  взагалі.  Воно
                  використовується  після  завершення  навчання  для  розрахунку

                  продуктивності отриманої мережі і її помилки на даних, про які
                  "їй взагалі нічого невідомо". Гарною мережею можна вважати ту
                  мережу,  в  якої  помилка  однаково  мала  на  всіх  трьох

                  підмножинах.
                        Під  продуктивністю  мережі  в  задачі  регресії  розуміється
                  відношення  стандартного  відхилення  помилок  мережі  до
                  стандартного відхилення вихідних даних (SD-ratio).

                        Емпіричне правило говорить, що якщо SD-ratio не перевищує
                  значення  0.2,           мережа        підібрана        добре.       Продуктивність
                  розраховується  для  кожного  з  трьох  підмножин.  Бажано,  щоб

                  розкид  значень  продуктивності  на  кожному  з  підмножин  був
                  невеликим.























                                                               63
   58   59   60   61   62   63   64   65   66   67   68