Page 136 - 4512
P. 136
Важливе значення має аналіз частки правильних про-
гнозів залежно від обраного порога класифікації (починаючи з
якого рівня ймовірності приймається значення 1). Звичайно за-
стосовується ROC - крива для оцінки якості моделі і показник
AUC - площа під ROC - кривої.
• Статистика Хосмера - Лемешоу (H-L, HL, Hosmer -
Lemeshow). Для розрахунку даної статистики вибірка розби-
вається на кілька підвибірок, по кожній з яких визначаються -
фактична частка даних зі значенням залежної змінної 1, тобто
фактично середнє значення залежної змінної по підвибірці
j n
p j y j y n
j
ij
i 1
і передбачена середня ймовірність по підрупі
j n
ˆ p
ˆ j p n j .
ij
i 1
Тоді значення статистики HL визначається за формулою
ˆ )
j
HL n j (p p j 2
j
ˆ
j 1 p j ˆ (1 p j ).
Точний розподіл даної статистики невідомий, однак ав-
тори методом симуляцій встановили, що він апроксимується
розподілом 2 (j 2) .
• Статистика Ендрюса (Andrews).
13.5 Логіт-регресія
Проблему регресії можна сформулювати так, що замість
передбачення бінарної змінної можна прогнозувати безпере-
рвну змінну, яка залишається в межах інтервалу 0-1. Дві най-
більш поширені моделі регресії, які виконують саме це, є мо-
делі логіт і пробіт регресії.
135