Page 138 - 4512
P. 138

x 
           де  z   T x   1 1  ... n n , x і θ - вектори-стовбці значень не-
                                    x
           залежних змінних  x1,  x2, …,  xn  і  параметрів (коефіцієнтів ре-
           гресії) - дійсних чисел  ,...,  1    n , відповідно, а  ( )f z - так звана
           логістична  функція  (іноді  також  звана  сигмоїдом  або  логіт-
           функцією):

                                       f ( )x   1   .
                                              1 e   x

                Оскільки Y приймає лише значення 0 і 1, то ймовірність
           другого можливого значення (y = 0) дорівнює:

                               
                                       
                             P y   0 x  1 f  ( ) 1z    ( f  T  ). x

                Для стислості функцію розподілу Y при заданому x можна
           записати в такому вигляді:

                                                      1 y
                                         y
                       P y    x   ( f  T x ) (1 f  ( x T  )) ,     .
                                                                 0,1
                                                            y

                Фактично , це є розподіл Бернуллі з параметром, рівним
             ( f  T  ) x .

                Підбір параметрів моделі логіт-регрессії
                Для підбору параметрів  ,...,  1    n необхідно скласти навча-
           льну  вибірку,  що  складається  з  наборів  значень  незалежних
           змінних і відповідних їм значень залежної  змінної  y. Форма-
                                                               ( )i
                                                                    n
           льно, це множина пар (x  (1) , y (1) ),...,(x (m) , y (m) ), де  x  R  - век-
           тор значень незалежних змінних , а  y        - відповідне їм
                                                       0,1
                                                  ( )i
           значення y. Кожна така пара називається навчальним прикла-
           дом.
                Зазвичай використовується метод максимальної вірогід-
           ності, згідно з яким вибираються параметри θ, максимізуючи
           значення функції вірогідності на навчальній вибірці:





                                            137
   133   134   135   136   137   138   139   140   141   142   143