Лекція 3
.docxЛекція №3
Основні припущення для простої лінійної регресії
Логіка подальших подій: є економетрична модель – інструмент моделювання. Слід окреслити умови, коли застосування його найменше.
По-іншому, наскільки вдало емпіричні коефіцієнти b0 та b1 відповідають β0 та β1?
Припущення щодо є головним для інтерпретації регресійних оцінок математичного сподівання (умови Гаусса-Маркова).
фактори, що враховані моделлю (віднесені до ) систематично не впливають: нейтралізують .
ВВ незалежні між собою (їх коеф. кореляції = 0):
Гомоскедастичність (однакова дисперсія ВВ )
Гетероскедастичність
(нерівна дисперсія)
Незалежність між значеннями (нульова коваріація між ними)
Регресійну модель визначено (специфіковано) правильно.
ВВ ε розподілена нормально з математичним сподіванням = 0 та сталою дисперсією , тобто
При виконанні вказаних припущень оцінки, отримані МНК, володіють властивостями:
Незміщені, тобто , тому що : відсутність систематичної похибки у визначенні розташування лінії регресії.
Оцінки переконливі (обґрунтовані): . По-іншому, збільшення об’єму вибірки сприяє підвищенню надійності оцінок.
Пояснювальні змінні не є ВВ; число спостережень >> числа пояснювальних змінних.
Оцінки ефективні: мають найменшу дисперсію.
BLUE – найкращі лінійні незміщені оцінки (це є теорема Гаусса-Маркова).
Мають місце робочі формули:
де співмножник , будучи оцінкою дисперсії випадкової величини ε, замінюється на величину , яка обчислюється:
,
причому величина є непояснювана дисперсія, міра відхилення залежної змінної навколо лінії регресії; n – об’єм вибірки; цифра 2 відповідає кількості оцінюваних параметрів моделі.
Величина називається стандартною похибкою оцінки (стандартна похибки регресії).
Величини
Є стандартні похибки коеф. регресії.
Геометричні пояснення формул коеф. визначає нахил прямої регресії. Чим більше розкиданість значень Y навколо лінії регресії, тим (в середньому) більша похибка в обчисленні нахилу прямої.
Точки належать прямій регресії,
: розкиданості нема.
Та ж пряма регресії, але точки не належать їй – суттєва розкиданість.
При виключенні з розгляду будь-якої точки прямі регресії суттєво відрізняються між собою: зовсім різні кути нахилу цих прямих. Отже, стандартна похибка коеф. регресії b1 буде значною.
Для великих по модулю значеннях Х навіть незначна зміна нахилу регресійної прямої призводить до значної зміни оцінки вільного члена, бо в середньому велика віддаль від точок спостереження до осі oY.
Інтервальні оцінки коеф. лінійного рівняння регресії
Припускається, що ВВ коеф. b0 та b1 мають нормальні розподіли.
Розраховується t-статистика для кожного параметра
Вони мають розподіл Стьюдента з числом ступенів вільності v = n – 2.
Рівень значущості для визначення 100(1-α)% довірчого інтервалу за допомогою таблиць критичних точок розподілу Стьюдента та довірчою ймовірністю і числом ступенів вільності v = n – 2 визначається критичні значення , що задовольняє умові
Підставляючи кожну статистику в цей результат, маємо:
Після перетворень виразів в дужках одержуємо:
Далі користуються виразами для S(b0) та S(b1).
Отже, довірчі інтервали:
З надійністю (1 – α) покривають параметри β0 та β1. Фактично, довірчий інтервал визначає значення теоретичних коефіцієнтів регресії β₀ та β₁, які будуть придатні з надійністю (1-α) при знайдених оцінках b₀ та b₁.
Довірчі інтервали залежної змінної
Центральне питання – прогнозування значень залежної змінної при певних значеннях пояснювальних змінних.
Передбачення середнього значення
Довірчий інтервал для М (Y│Х= )= β₀+β₁ має вигляд:
[ b₀+b₁ - ;n-2· ;
b₀+b₁ + ;n-2· ]
Для перевірки гіпотез:
нульвої Н₀: М (Y│Х= )= ;
альтернативної Н₁: М (Y│Х= ) = ;
Передбачення індивідуальних значень залежної змінної
Важливіше знати дисперсію Y, ніж її середні значення або довірчі інтервали для умовного математичного сподівання
ВВ
Має розподіл Стьюдента з V=n-2.
Отже, P[ - ;n-2 < < ;n-2]=1-α.
Таким чином, інтервал [b₀+b₁ ± ;n-2· ] визначає межі, за якими може бути не більше 100*α% точок спостережень при Х= . Цей інтервал ширший за попередній ( довірчий інтервал умовного сподівання).
Перевірка лінійної регресійної моделі на адекватність здійснюється за F-критерієм Фішера і включає кроки:
Розраховується F-відношення
F₁, n-2= , де індекси 1, ( ) – ступені вільності.
Вказується рівень значущості α, як правило α=0,05
За статистичними таблицями F-розподілу Фішера для ступенів вільності 1, ( ) та рівня значимості 2 знаходиться Fкр.
Якщо F > Fкр, то нульова гіпотеза Н₀, що β₁=0, відкидається з ризиком в 5%. Іншими словами, для нерівності F > Fкр побудована регресійна модель адекватна реальній дійсності.
Схема Стьюдента для перевірки значущості коефіцієнтів парної лінійної регресії
Будується t-статистика для кожного:
t= t= , де β₀, β₁ – теоретичні значення (гіпотетичні).
В економетриці поширено:
нуль-гіпотеза Н₀: βᵢ=0, де і=0,1.
Альтернативна Н₁: βᵢ = 0.
Тоді t-статистика для параметрів набуває вигляду t= .
Вона порівнюється з ; (n-2).
Якщо виконується │t│< <=> - < t < , то з ймовірністю (1-α) оцінка bᵢ є статистично незначимою (приймається нуль-гіпотеза)
Якщо величина t потрапляє в критичну зону, яка заштрихована, то нуль-гіпотеза Н₀: βᵢ=0 відкидається.
t-статистика Стьюдента є відношення величини bᵢ до оцінки свого стандартного відхилення (або середньоквадратичного). Якщо згадуване відношення більше від критичного , яке шукається за таблицею, то приймається альтернативна гіпотеза: Н₁: βᵢ = 0, тобто коефіцієнт значущий статистично.
Користуються статистикою
T= , що має розподіл Стьюдента з числом ступенів вільності V=n-2.
Гіпотеза Н₀ відхиляється якщо 2-рівень значущості. │ │> ;n-2;
По мірі віддаленості від довірчі інтервали розширюються (бути обережним!).
З ростом числа спостережень ці інтервали звужуються до лінії регресії.