Задание 3
Постройте линейное уравнение парной регрессии у от х. Проведите дисперсионный анализ, найдите коэффициент регрессии, эластичности, среднюю ошибку аппроксимации; оцените статистическую значимость параметров регрессии и корреляции; оцените статистическую значимость модели по критерию Фишера. Результаты расчета проверить в Excel с помощью инструмента Анализа данных.
№ к-за |
Урожайность, ц/га |
Балл оценки почвы для озимых зерновых |
x*y |
x^2 |
y^2 |
y^ |
/(y-y^)/y/ |
(y-y^)^2 |
(x-xcp)^2 |
(y-Ỹ)^2 |
(y^-Ỹ)^2 |
1 |
25 |
90 |
2250 |
625 |
8100 |
75,100 |
0,166 |
221,997 |
38,617 |
678,478 |
124,279 |
2 |
22 |
68 |
1496 |
484 |
4624 |
69,719 |
0,025 |
2,954 |
10,332 |
16,383 |
33,249 |
3 |
15,7 |
60 |
942 |
246,49 |
3600 |
58,417 |
0,026 |
2,507 |
9,522 |
15,621 |
30,643 |
4 |
14,3 |
58 |
829,4 |
204,49 |
3364 |
55,905 |
0,036 |
4,388 |
20,122 |
35,431 |
64,756 |
5 |
24,8 |
82 |
2033,6 |
615,04 |
6724 |
74,742 |
0,089 |
52,684 |
36,172 |
325,717 |
116,408 |
6 |
13,7 |
57 |
780,9 |
187,69 |
3249 |
54,829 |
0,038 |
4,714 |
25,864 |
48,336 |
83,237 |
7 |
22 |
66 |
1452 |
484 |
4356 |
69,719 |
0,056 |
13,828 |
10,332 |
4,193 |
33,249 |
8 |
15,5 |
53 |
821,5 |
240,25 |
2809 |
58,058 |
0,095 |
25,583 |
10,796 |
119,955 |
34,744 |
9 |
16,9 |
61 |
1030,9 |
285,61 |
3721 |
60,570 |
0,007 |
0,185 |
3,556 |
8,717 |
11,444 |
10 |
13 |
50 |
650 |
169 |
2500 |
53,573 |
0,071 |
12,768 |
33,474 |
194,669 |
107,728 |
11 |
15,1 |
61 |
921,1 |
228,01 |
3721 |
57,340 |
0,060 |
13,392 |
13,584 |
8,717 |
43,718 |
12 |
18 |
59 |
1062 |
324 |
3481 |
62,543 |
0,060 |
12,552 |
0,617 |
24,526 |
1,987 |
13 |
12,5 |
57 |
712,5 |
156,25 |
3249 |
52,676 |
0,076 |
18,695 |
39,510 |
48,336 |
127,152 |
14 |
22 |
65 |
1430 |
484 |
4225 |
69,719 |
0,073 |
22,265 |
10,332 |
1,098 |
33,249 |
15 |
22,1 |
60 |
1326 |
488,41 |
3600 |
69,898 |
0,165 |
97,971 |
10,984 |
15,621 |
35,350 |
16 |
22,6 |
69 |
1559,4 |
510,76 |
4761 |
70,795 |
0,026 |
3,222 |
14,549 |
25,478 |
46,821 |
17 |
24,9 |
72 |
1792,8 |
620,01 |
5184 |
74,921 |
0,041 |
8,532 |
37,384 |
64,764 |
120,311 |
18 |
18,7 |
68 |
1271,6 |
349,69 |
4624 |
63,799 |
0,062 |
17,652 |
0,007 |
16,383 |
0,024 |
19 |
14,2 |
58 |
823,6 |
201,64 |
3364 |
55,726 |
0,039 |
5,172 |
21,029 |
35,431 |
67,675 |
20 |
23,5 |
70 |
1645 |
552,25 |
4900 |
72,410 |
0,034 |
5,806 |
22,224 |
36,574 |
71,523 |
21 |
18 |
59 |
1062 |
324 |
3481 |
62,543 |
0,060 |
12,552 |
0,617 |
24,526 |
1,987 |
итого |
394,5 |
1343 |
25892,3 |
7780,59 |
87637 |
1343,0 |
1,3057359 |
559,418 |
369,626 |
1748,952 |
1189,535 |
сред. знач. |
18,79 |
63,95 |
1232,97 |
370,50 |
4173,19 |
63,95 |
0,06 |
26,64 |
17,60 |
83,28 |
56,64 |
Шаг 1 Найдем параметр уравнения регрессии
b= ( xy¯- y¯*x¯)/ (x2¯- (x¯)2)
b= (1232,97 – 63,95*18,79)/ (370,50-18,792)= 1,7939;
a= y¯- b* x¯
a= 63,95- 1,37939*18,75= 30,25197;
Уравнение регрессии y=a+b*x= 30,25197+1,7939* x
Параметр b=1,3086 представляет собой коэффициент регрессии, показывающий, что с увеличением урожайности бонитировочный балл увеличивается на 1,3086.
Коэффициент эластичности показывает на сколько процентов в среднем по совокупности изменяется результат y от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Э=f '(x)* x¯/ y¯=1,7939*18,79/63,95=0,5270
Оценим тесноту связи с помощью показателей корреляции и детерминации.
σx=√ x2¯- (x¯)2= √370,50-18,792=4,19538
σy=√ y2¯- (y¯)2=√4173,19-63,952=9,12597
Линейный коэффициент парной корреляции для линейной регрессии
r =b*(σx/σy)= 1,7939 *(4,19538 /9,12597)= 0,824706
По шкале Чаттена связь прямая и высокая.
Коэффициент детерминации R= r2= 0,68014
Вариация результативного признака на 68% объясняется вариацией включенного в модель фактора х.
Средняя ошибка аппроксимации – это среднее отклонение расчетных значений от фактических. Дадим оценку с помощью средней ошибки аппроксимации Аср=1/n*∑ |(y-y^)/y|*100%
Аср=1/21*1,30574*100%=6,21778%
В среднем расчетное значение отклоняется от фактических на 6,21778%.
Расчету F – критерия Фишера предшествует анализ дисперсии, центральное место в нем занимает разложение общей суммы квадратов отклонения переменной y от среднего значения на 2 части (таблица 3.1).
Таблица 3.1 Дисперсионный анализ
Дисперсионный анализ |
||||
Вариационный результат |
df |
∑ квадратов отклонений |
Дисперсия на 1df |
F-критерий Фишера |
Общая |
20 |
1748,952 |
87,45 |
40,40 |
Факторная |
1 |
1189,5350 |
1189,54 |
|
Остаточная |
19 |
559,4180 |
29,44 |
Где df – число степеней свободы, n – число наблюдений, m – число параметров при переменных х.
Сумма квадратов отклонений, обусловленная регрессией, больше остаточной суммы квадрата, поэтому уравнение регрессии статистически значимо, и урожайность оказывает существенное воздействие на балл оценки почвы для озимых зерновых.
Любая сумма квадратов отклонений связана с числом степеней свободы df. Разделив катую сумму квадратов отклонений на соответствующее число степеней свободы, получаем дисперсию D на одну степень свободы.
Значимость уравнения регрессии оценивается с помощью F – критерия Фишера. При этом выдвигается нулевая гипотеза Н0. Нулевой или основной гипотезой называется гипотеза, которая утверждает, что различия между сравниваемыми величинами отсутствуют, а наблюдаемые отклонения объясняются случайными колебаниями выборки.
Fфакт = (r2/1- r2)*((n-m-1)/m)
Fфакт =( 0,68014/(1- 0,68014))*(21-2)= 40,40;
Для оценки значимости уравнения регрессии Fфакт сравнивают с Fтабл (из справочника) при определенном уровне значимости k1=m, k2=n-m-1. Тогда получаем k1=1, k2=19 и Fтабл=4,38.
Если Fфакт > Fтабл, то есть 40,40 >4,38, то гипотеза Н0 отклоняется.
Для оценки коэффициентов регрессии и корреляции рассчитывается t – критерий Стьюдента и доверительный интервал каждого из показателей.
ta = a/ma , tb = b/mb , tr = r/mr ,
где ma, mb, mr – случайные ошибки параметров.
ma = √ (∑(у – ŷ)2 / n-2)* (∑xi2 / (n*(∑x - x¯)2));
ma = √( 559,418/19)*( 7780,59/(21* 369,626))= 5,4326;
mb = √ (∑(у – ŷ)2)/ (∑x - x¯)2);
mb = √559,418/369,626=1,2302;
mr = √ (1 – r2) / (n – 2) , mr = √0,31986/19 = 0,1297
ta = 30,25197/5,4326=5,5686;
tb = 1,79394/1,2302=1,458;
tr = 0,8247/0,1297=6,3562;
Фактическое значение t – критерия Стьюдента сравнивается с табличным на основании заданных вероятностей и df степеней свободы.
При df = 19 и α = 0,05, tтабл= 2,093, тогда
ta > tтабл – параметр статистически значим;
tb < tтабл – параметр статистически незначим;
tr > tтабл – параметр статистически значим.
Для установления доверительного интервала определяют предельную ошибку Δ для каждого показателя:
Δa = tтабл* ma=2,093* 5,4326=11,37;
Δb = tтабл* mb=2,093* 1,2302=2,57;
Δr = tтабл* mr =2,093* 0,1297=0,27.
Формулы для расчета доверительного интервала имеют вид:
γа = а ± Δa= 30,2519±11,37;
γb = b ± Δb = 1,7939±2,57;
γr = r ± Δr = 0,8247±0,27.
Если Fфакт > Fтабл, но часть коэффициентов незначима, то модель пригодна для принятия некоторых решений, но не для прогнозирования.
В прогнозном значении yр определяется путем постановки в уравнение регрессии yр = a + b*x соответствующего прогнозного значения хр.
Рассчитаем прогнозное значение результата, если прогнозное значение фактора увеличить на 10% от его среднего значения.
хр = 1,1 * x¯= 1,1* 18,79=20,67;
yр = a + b* хр = 30,2519+1,7939*20,67=67,33.
Если прогнозное значение урожайности составит 20,67 ц/га, то прогнозное значение бонитировочного балла составит 67,33.
Вычисляется стандартная ошибка прогноза:
σост = √ (∑(у – ŷ)2)/ (n – m – 1) = √ 559,418/19 = 5,4261;
myp = σост * √ 1+ 1/n + (хр - x¯)2 / (∑x - x¯)2 ;
myp = 5,4261* √ 1+1/21+ (20,67 - 16,895)2 / 369,626= 5,6550.
Определяем доверительный интервал прогноза для уровня значимости α = 0,05.
γур = yр ± Δур , Δур = tтабл * myp = 2,093*5,6550=11,836;
γур = 67,33±11,836
γур min = 67,33- 11,836= 55,494
γур max = 67,33+11,836= 76,166
С вероятностью95% можно утверждать,что при внесении удобрении, бонитировочный балл прогнозирруется в пределах от 55,494 до 76,166 балл.