5.3. Класична регресія
Регресійна модель описує об’єктивно існуючі між явищами кореляційні зв’язки. За своїм характером кореляційні зв’язки надзвичайно складні та різноманітні. В одних випадках результат у зі зміною фактора хі зростає чи зменшується рівномірно, в інших — нерівномірно. Іноді зростання може змінитися зменшенням і навпаки. Простежити всі ці взаємозв’язки і встановити точний функціональний вид практично неможливо. А тому при виборі типу функції йдеться лише про апроксимацію відносно простими функціями незрівнянно більш складних за своєю природою взаємозв’язків. На практиці перевагу віддають моделям, які є лінійними або приво- дяться до лінійного виду шляхом перетворення змінних, наприклад логарифмуванням. Такий підхід, безперечно, містить у собі певну умовність, оскільки передбачає однаковий характер зв’язку з усіма факторами. Проте використання надто складних функцій неминуче веде до збільшення кількості параметрів, а отже, зменшує точність вимірювання та ускладнює інтерпретацію результатів.
При обґрунтуванні типу функції слід враховувати й той факт, що межі варіації корельованих ознак у конкретних умовах простору і часу, в конкретній сукупності значно вужчі за їх можливі значення, і в цих межах варіації навіть лінійна функція може задовільно апроксимувати зв’язок.
У лінійному щодо параметрів рівнянні регресії індивідуальне значення результативного показника уj (де j — порядковий номер одиниці сукупності) записується так:
,
де b0 — вільний член рівняння; економічного змісту, як правило, не має, лише окреслює область існування моделі;
bі — коефіцієнт регресії; показує, як в середньому змінюється у зі зміною хі на одиницю її шкали вимірювання за незмінності інших включених в модель факторів і за інших рівних умов;
ej = yj – Yj — залишкова величина.
У регресійній моделі основне навантаження покладається на коефіцієнт регресії bі, він розглядається як своєрідна міра «очищеного» впливу хі на у і називається ефектом впливу.
Процедура оцінювання параметрів регресійної моделі ґрунтується на методі найменших квадратів (МНК). Оскільки алгоритми МНК описано в математико-статистичній літературі й реалізовано в комп’ютерних програмах, наведемо лише загальну схему розрахунку статистичних характеристик моделі, акцентуючи увагу на їх змістовній інтерпретації.
Первинна інформація представляється як матриця факторних ознак Х розміром (n ∙ m) і вектора результативної ознаки у розміром (n ∙ 1). Задля зручності використання алгоритмів МНК матриця Х розширюється за рахунок додатково введеної фіктивної змінної х0, вектор якої представлений одиницями. Параметри моделі — вектор В = │b0, b1, b2, …, bm│ визначаються розв’язуванням системи нормальних рівнянь, яка записується так:
X′XB = X′y, де X′X — матриця розміром n (m + 1).
Послідовність розрахунків включає етапи:
обчислення матриці X′X і вектора X′y;
обертання матриці C = (Х′Х)–1;
розрахунок параметрів B = CX′y;
визначення теоретичних значень результативної ознаки та залишків ej = yj – Yj .
Значення коефіцієнтів регресії певною мірою залежать від складу введених у модель факторів. З розширенням ознакової множини моделі відбувається перерозподіл впливу попередньо введених факторів. Чим вагоміший вплив нововведеного фактора, тим помітніші зміни. Ілюстрацією перерозподілу впливу факторів може слугувати регресійна модель урожайності рису, ц/га [11]. У модель послідовно вводились агротехнічні фактори: х1 —попередник, балів; х2 — внесення добрив під основний обробіток, центнерів поживної речовини (ц п. р.) на 1 га посіву; х3 — передпосівний обробіток, га м’якої оранки; х4 — підживлення, ц п. р.; х5 — норма висіву; х6 — кількість прополювань. Відповідно отримано такі рівняння регресії:
1. Y = 30,432 + 3,001х1;
2. Y = 26,208 + 2,049х1 + 5,995х2;
3. Y = 21,563 + 1,970х1 + 4,610х2 + 2,906х3;
4. Y = 22,332 + 1,321х1 + 4,558х2 + 1,465х3 + 9,791х4;
5. Y = 18,960 + 1,342х1 + 4,483х2 + 1,347х3 + 9,545х4 + 1,756х5;
6. Y = 19,387 + 0,965х1 + 3,400х2 + 0,501х3 + 7,500х4 + 1,731х5 + + 3,433х6.
Як бачимо, введення кожного нового фактора спричиняє зменшення впливу попередньо введених факторів, таку ж тенденцію має й вільний член рівняння.
Оскільки факторні ознаки мають, як правило, різні одиниці вимірювання, то для порівняння ефектів їх впливу в рамках моделі використовують стандартизовані коефіцієнти регресії (бета-коефіцієнти) або коефіцієнти еластичності . Бета-коефіцієнт характеризує ефект впливу хі на у в середньоквадратичних відхиленнях, коефіцієнт еластичності — в процентах. У табл. 5.2 наведено бета-коефіцієнти останнього (шостого) варіанта моделі врожайності рису. Згідно із значеннями найвагоміший вплив на врожайність рису мають: прополювання (β6 = 0,360), підживлення (β4 = 0,264), внесення добрив під основний обробіток (β2 = 0,248).
Для оцінювання адекватності регресійної моделі використовують:
стандартне відхилення;
множинні коефіцієнти детермінації та кореляції;
частинні коефіцієнти детермінації та кореляції;
коефіцієнти окремої детермінації;
критерії перевірки істотності зв’язку.
Стандартне відхилення характеризує варіацію залишкових величин
,
де n — обсяг сукупності, m — кількість коефіцієнтів регресії.
Розрахунок характеристик щільності зв’язку ґрунтується на декомпозиції (розкладанні) варіації у за джерелами формування:
,
де — загальна сума квадратів відхилень, зумовлена впливом усіх можливих факторів;
— факторна сума квадратів відхилень, зумовлена впливом включених у модель факторних ознак хі;
— залишкова сума квадратів відхилень, розмір якої залежить від потужності впливу не включених у модель факторів.
Відношення факторної суми квадратів до загальної характеризує частку варіації у, пов’язану з варіацією включених у модель факторів, і називається множинним коефіцієнтом детермінації
.
За відсутності зв’язку R2 = 0. Якщо зв’язок функціональний, то R2 = 1. Очевидно, що R2 пов’язаний із стандартним відхиленням se. При зменшенні se значення R2 зростатиме і навпаки. Корінь квадратний із коефіцієнта детермінації називають коефіцієнтом кореляції . Для моделі врожайності рису R = 0,8394, R2 = 0,7029, тобто 70,29% варіації врожайності рису лінійно пов’язані з агротехнічними факторами, включеними в модель.
Окрім названих множинних коефіцієнтів щільності зв’язку, в комп’ютерних програмах передбачено розрахунок R2 з урахуванням числа ступенів вільності:
,
де — оцінка дисперсії результативної ознаки у;
— оцінка залишкової дисперсії.
Скоригований коефіцієнт множинної детермінації відрізняється від R2 співвідношенням числа ступенів вільності дисперсій: залишкової (n – m + 1) і загальної (n – 1). Для розглянутої моделі це співвідношення становить (34 – 1) : (34 – 6 – 1) = = 1,2222, а = 1 – (1 – 0,7029) ∙ 1,2222 = 0,6369.
У моделях множинної регресії поряд з оцінкою сукупного впливу всіх включених у модель факторів вимірюється кореляція між функцією у та кожним окремим фактором хі при елімінуванні впливу інших факторів. Для цього використовують частинні коефіцієнти детермінації . Схему розрахунку розглянемо на прикладі фактора х6 моделі врожайності рису. До введення його в модель п’ять факторів пояснювали 64,61% варіації врожайності (R² = 0,6461), не поясненими залишалися (1 – 0,6461) ∙ 100 = 35,39% варіації. Фактор х6 додатково пояснив 0,7029 –– 0,6461 = 0,0568 варіації у, що відноcно не поясненої іншими факторами варіації становить 0,0568 : 0,3539 = 0,1605. Це і є частинним коефіцієнтом детермінації фактора х6.
Отже, розрахунок ґрунтується на порівнянні двох регресійних моделей: повної, з урахуванням фактора хі, і скороченої, у якій фактор хі відсутній. Чисельник дорівнює різниці сукупних коефіцієнтів детермінації цих моделей, знаменник — одиниці мінус сукупний коефіцієнт детермінації скороченої моделі. Загальну схему його розрахунку можна представити як відношення сум квадратів: частинної і залишкової :
,
де ;
сіі — діагональний елемент оберненої матриці.
Корінь квадратний із частинного коефіцієнта детермінації називають частинним коефіцієнтом кореляції.
Іноді для характеристики ролі кожного фактора у відтворенні варіації у сукупний коефіцієнт детермінації розкладають на складові:
,
де — коефіцієнт окремої детермінації, який залежить від потужності впливу і-го фактора на у та щільності зв’язку між ними (ri0 — парний коефіцієнт кореляції).
Ефекти впливу факторів на врожайність рису та характеристики щільності зв’язку наведенo в табл. 5.3.
Таблиця 5.3
Фактор |
ri0 |
bi |
βi |
|
|
x1 |
0,597 |
0,965 |
0,192 |
0,1146 |
0,0727 |
x2 |
0,614 |
3,400 |
0,248 |
0,1521 |
0,1160 |
x3 |
0,489 |
0,501 |
0,045 |
0,0221 |
0,0039 |
x4 |
0,638 |
7,500 |
0,264 |
0,1687 |
0,1168 |
x5 |
0,411 |
1,730 |
0,029 |
0,0119 |
0,0020 |
x6 |
0,716 |
3,443 |
0,362 |
0,2335 |
0,1605 |
У таблиці для кожного фактора наведено три характеристики щільності зв’язку: парний коефіцієнт ri0, частинний і коефіцієнт окремої детермінації . Найбільші значення мають парні коефіцієнти кореляції. Це пояснюється тим, що фактори взаємозалежні, і парний коефіцієнт кореляції акумулює вплив інших факторів. Частинні коефіцієнти характеризують відносну зміну залишкової дисперсії за рахунок відповідного фактора; для кожного з них база порівняння інша, а тому аналітичні можливості їх обмежені. Коефіцієнти окремої детермінації, сума яких дорівнює множинному коефіцієнту детермінації R2 = 0,7029, упорядковуючи фактори за потужністю впливу, практично дублюють висновки, які можна зробити на основі бета-коефіцієнтів.
Перевірка істотності зв’язку статистично формулюється як перевірка нульових гіпотез: H0 : R2 = 0; H0 : bi = 0. Гіпотеза Н0 відхиляється чи визнається допустимою на основі статистичних критеріїв, зокрема дисперсійного F-критерію, статистична характеристика якого розраховується відношенням оцінок факторної і залишкової дисперсій:
або .
Критичні значення , де α — рівень істотності, k1 = = m – 1, k2 = n – (m – 1) — числа ступенів вільності чисельника та знаменника, наведено в додатку 10. Оскільки F-критерій функціонально зв’язаний з коефіцієнтом детермінації R2, то перевірку істотності зв’язку можна здійснити, використовуючи безпосередньо критичні значення , наведені в додатку 11.
Паралельно з оцінюванням адекватності моделі проводиться перевірка істотності впливу окремих факторів хі на у за допомогою t-критерію:
,
де — стандартна похибка коефіцієнта регресії;
— оцінка залишкової дисперсії;
— діагональний елемент оберненої матриці С.
Критичні значення , де k = n – 1 наведено в додатку 5. Ефект впливу і-го фактора визнається істотним, якщо . Так, при α = 0,05 і k = 20 коефіцієнт bі в 2,15 раза перевищує стандартну похибку , що свідчить про його значущість (істотність).
Довірчі межі ефекту впливу визначаються за правилами вибіркового методу , де — значення двостороннього t-критерію.
Процедури регресійного аналізу об’єднано в модулі Multiplе Regression — Множинна регресія. Як приклад розглянемо модель залежності виходу цукру з 1 т сировини в кг (y) від цукристості буряка (х1), втрат сировини при транспортуванні та зберіганні (х2) та втрат цукру при переробці сировини (х3). Первинні дані наведено в табл. 2.1.
На стартовій панелі модуля відкриваємо файл даних і проводимо селекцію ознак на залежну (Dependent var.) та незалежні (Independent Variable list). За командою на виконання програми з’являється вікно результатів аналізу — Multiple Regression Results. У верхній, інформаційній частині цього вікна вказується назва залежної ознаки та обсяг сукупності; наводяться значення коефіцієнтів щільності зв’язку: множинної кореляції R, множинної детермінації R2 та (у таблицях відповідно R1 та Adjusted R1), значення F-критерію, стандартної похибки — St.errou, вільного члена рівняння регресії b0 — Intercеpt та його похибки, значення βi-коефіцієнтів.
У нижній, функціональній частині вікна пропонуються опції, за допомогою яких можна провести всебічний аналіз результатів регресійного аналізу. Так, опція Regression Summary видає таблицю, в якій, окрім зазначених характеристик, наведено для всіх включених у модель факторів βi-коефіцієнти і коефіцієнти регресії bі із стандартними похибками, значення t-критерію і фактичні рівні істотності p-level. У табл. 5.4 наведено характеристики регресійної моделі виходу цукру з 1 т сировини.
Таблиця 5.4
Regression Summary for Dependent Variable: VAR4 (new.sta) |
||||||
Continuе… |
R = ,919228 RІ = ,844981 Adjusted RІ = ,802703 |
|||||
F(3,11)=19,986 p<,00009 Std.Error of estimate: ,36406 |
||||||
N = 15 |
BETA |
St. Err. of BETA |
B |
St. Err. of B |
t(11) |
p-level |
Intercpt |
|
|
9,812 |
8,287 |
1,184 |
0,261 |
VAR1 |
0,332 |
0,146 |
0,953 |
0,420 |
2,267 |
0,044 |
VAR2 |
–0,507 |
0,157 |
–10,084 |
3,128 |
–3,223 |
0,008 |
VAR3 |
–0,377 |
0,130 |
–1,729 |
0,598 |
–2,888 |
0,014 |
Згідно з даними таблиці рівняння регресії має такий вигляд:
Y = 9,812 + 0,953x1 – 10,084x2 – 1,729x3.
Із збільшенням цукристості буряка на 1%, за умови незмінності інших факторів, вихід цукру з 1 т сировини зростає в середньому на 0,953%; щодо порушень технології зберігання та переробки сировини, то вони мають негативний вплив, особливо порушення технології зберігання. Включені в модель фактори пояснюють 84,5% варіації виходу цукру з 1 т сировини; ефекти впливу усіх факторів істотні.
Опція Analysis of variance пропонує таблицю декомпозиції варіації показника-функції, де вказані суми квадратів Sums of Squares: факторна Regress., залишкова Residual та загальна Total, число ступенів вільності df, оцінки дисперсій Mean Squares, значення F-критерію та p-level (табл. 5.5).
Таблиця 5.5
Analysis of Variance; DV: VAR4 (new.sta) |
|||||
Continuе… |
Sums of Squares |
df |
Mean Squares |
F |
p-level |
Regress. |
7,947 |
3 |
2,649 |
19,986 |
9,27E-05 |
Residual |
1,458 |
11 |
0,132 |
|
|
Total |
9,405 |
|
|
|
|
За опцією Partial cоrrelаtion визначаються частинні коефіцієнти кореляції Partial Cor. для кожної змінної. У таблиці результатів (табл. 5.6), окрім коефіцієнтів частинної і напівчастинної (Semipart Cor.) кореляції, пропонується тест толерантності, за яким оцінюється ступінь зв’язку хі з іншими включеними в модель факторами. Якщо хі є лінійною комбінацією інших факторів, то R-square наближується до 1, а Tolerаnce (1 – R²) — до 0. Фактор з малою толерантністю не несе додаткової інформації, і включення його в модель не виправдане.
Таблиця 5.6
Variables currently in the Equation; DV: VAR4 (new.sta) |
|||||||
Соntinue… |
Beta in |
Partial Cor. |
Semipart Cor. |
Tolerance |
R-square |
t(11) |
p-level |
VAR1 |
0,332 |
0,564 |
0,269 |
0,656 |
0,344 |
2,267 |
0,045 |
VAR2 |
–0,507 |
–0,697 |
–0,383 |
0,570 |
0,430 |
–3,223 |
0,008 |
VAR3 |
–0,377 |
–0,657 |
–0,343 |
0,826 |
0,174 |
–2,889 |
0,015 |