- •Лабораторная работа №3-4.
- •Факторы урожайности зерновых культур
- •Матрица корреляционных коэффициентов
- •Модель, включающая х1 и х4:
- •Модель, включающая х2 и х4:
- •Модель, включающая х3 и х4:
- •Модель, включающая х4 и х5
- •Коэффициенты трехфакторной (х1,х3,х4) модели
- •Коэффициенты трехфакторной (х2,х3,х4) модели
- •Коэффициенты трехфакторной (х3,х4,х5) модели
- •Коэффициенты модели, полученной методом пошаговой регрессии
Матрица корреляционных коэффициентов
Таблица №4
|
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
Y |
1,00 |
0,43 |
0,37 |
0,40 |
0,58 |
0,33 |
X1 |
0,43 |
1,00 |
0,85 |
0,98 |
0,11 |
0,34 |
X2 |
0,37 |
0,85 |
1,00 |
0,88 |
0,03 |
0,46 |
X3 |
0,40 |
0,98 |
0,88 |
1,00 |
0,03 |
0,28 |
X4 |
0,58 |
0,11 |
0,03 |
0,03 |
1,00 |
0,57 |
X5 |
0,33 |
0,34 |
0,46 |
0,28 |
0,57 |
1,00 |
Самый высокий коэффициент корреляции с у, согласно матрицы, у х4. Это означает, что наибольшее влияние на урожайность зерновых культур оказывает количество расходуемых удобрений.
Таким образом, х4 – самый информативный признак.
Мультиколлинеарны – x1, x2, x3. Следовательно, не целесообразно использовать все эти 3 фактора в модели. Оставлять в модели все 3 признака нецелесообразно, т.к. они являются зависимыми и поэтому искажают параметры модели. В модели оставляем самый информативный признак, он должен иметь самую сильную связь с Y. В данном случае этим признаком является х4. В этом мы можем также убедиться, если ещё раз обратим внимание на данные таблицы №1, p-level<0.05. Только при х4 коэффициент значим.
Далее наша задача сводится к устранению мультиколлинеарности.
Воспользуемся методом включения переменных.
Исследуем однофакторную модель, содержащую самый значимый фактор – х4.
Таблица №5
|
B |
Среднее квадратичное Отклонение (σ) |
t(18) |
p-level |
|
Константа |
7,874629 |
0,663354 |
11,87093 |
0,000000 |
|
X4 |
3,545373 |
1,181916 |
2,99968 |
0,007691 |
|
Коэффициент корелляции: r = 0, 57730960
Коэффициент детерминации: R2 = 0, 33328637
Скорректированный коэффициент детерминации: R2 = 0, 29624673
Полученный коэффициент детерминации имеет очень низкое значение, хотя параметр р-level в норме, не превышает 0,05. Это говорит о том, что модель частично значима и не может использоваться.
Скорее всего, на результативный признак влияют также и другие факторы.
Исследуем другие модели (двухфакторные), содержащие самый информативный признак.
Модель, включающая х1 и х4:
Таблица №6
-
B
Среднее кватратичное
Отклонение (σ)
t(17)
p-level
Константа
7,341196
0,660155
11,12041
0,000000
X1
0,345287
0,165200
2,09012
0,051943
X4
3,293470
1,091438
3,01755
0,007759
Коэффициент корелляции: r = 0, 68526595
Коэффициент детерминации: R2 = 0, 46958942
Скорректированный коэффициент детерминации: R2 = 0, 40718817