Page 136 - 4512
P. 136

Важливе  значення  має  аналіз  частки  правильних  про-
           гнозів залежно від обраного порога класифікації (починаючи з
           якого рівня ймовірності приймається значення 1). Звичайно за-
           стосовується ROC - крива для оцінки якості моделі і показник
           AUC - площа під ROC - кривої.
                •  Статистика  Хосмера  -  Лемешоу  (H-L,  HL,  Hosmer  -
           Lemeshow).  Для  розрахунку  даної  статистики  вибірка  розби-
           вається на кілька підвибірок, по кожній з яких визначаються -
           фактична частка даних зі значенням залежної змінної 1, тобто
           фактично середнє значення залежної змінної по підвибірці
                                                j n
                                     p   j  y   j  y n
                                                      j
                                                   ij
                                               i 1

           і передбачена середня ймовірність по підрупі

                                             j n
                                               ˆ p 
                                        ˆ  j  p n  j .
                                                ij
                                            i 1

                Тоді значення статистики HL визначається за формулою

                                                    ˆ )
                                          j
                                    HL    n j (p   p j  2
                                                 j
                                              ˆ
                                          j 1  p j    ˆ (1 p j ).

                Точний розподіл даної статистики невідомий, однак ав-
           тори  методом  симуляцій  встановили,  що  він  апроксимується
           розподілом   2 (j 2)  .
                • Статистика Ендрюса (Andrews).


                13.5 Логіт-регресія

                Проблему регресії можна сформулювати так, що замість
           передбачення  бінарної  змінної  можна  прогнозувати  безпере-
           рвну змінну, яка залишається в межах інтервалу 0-1. Дві най-
           більш поширені моделі регресії, які виконують саме це, є мо-
           делі логіт і пробіт регресії.


                                            135
   131   132   133   134   135   136   137   138   139   140   141