Правительство Российской Федерации
Пермский филиал
федерального государственного автономного образовательного учреждения высшего профессионального образования
"Национальный исследовательский университет "Высшая школа экономики"
Факультет менеджмента
Кафедра информационных технологий в бизнесе
Домашнее задание по дисциплине
«Статистический анализ данных (spss)»
Вариант 5+4
Студентка группы М-08-Мар
Ефремова М.А.
Преподаватель
Шестакова Л.В.
Пермь, 2012 г.
Задание 1
№ варианта |
Результативный признак, YJ |
Номер факторных признаков, Xj |
5 |
3 |
8,9, 10, 12, 15 |
Y3 — рентабельность;
X8— премии и вознаграждения на одного работника;
X9— удельный вес потерь от брака;
X10 — фондоотдача;
X12— среднегодовая стоимость основных производственных фондов;
X15 — непроизводственные расходы;
Корреляционная матрица.
Используем метод корреляции Пирсона, так как шкалы, приведенные в нашей модели количественные.
Корреляции |
|||||||
|
удельный вес потерь от брака |
премии и вознаграждения на одного работника |
фондоотдача |
среднегодовая стоимость основных производственных фондов |
непроизводственные расходы |
рентабельность |
|
удельный вес потерь от брака |
Корреляция Пирсона |
1 |
,086 |
-,289* |
,007 |
-,404** |
-,028 |
Знч.(2-сторон) |
|
,550 |
,042 |
,963 |
,004 |
,848 |
|
N |
50 |
50 |
50 |
50 |
50 |
50 |
|
премии и вознаграждения на одного работника |
Корреляция Пирсона |
,086 |
1 |
-,093 |
,431** |
-,241 |
,689** |
Знч.(2-сторон) |
,550 |
|
,521 |
,002 |
,092 |
,000 |
|
N |
50 |
50 |
50 |
50 |
50 |
50 |
|
фондоотдача |
Корреляция Пирсона |
-,289* |
-,093 |
1 |
-,231 |
,022 |
,451** |
Знч.(2-сторон) |
,042 |
,521 |
|
,106 |
,879 |
,001 |
|
N |
50 |
50 |
50 |
50 |
50 |
50 |
|
среднегодовая стоимость основных производственных фондов |
Корреляция Пирсона |
,007 |
,431** |
-,231 |
1 |
-,090 |
,079 |
Знч.(2-сторон) |
,963 |
,002 |
,106 |
|
,536 |
,587 |
|
N |
50 |
50 |
50 |
50 |
50 |
50 |
|
непроизводственные расходы |
Корреляция Пирсона |
-,404** |
-,241 |
,022 |
-,090 |
1 |
-,249 |
Знч.(2-сторон) |
,004 |
,092 |
,879 |
,536 |
|
,082 |
|
N |
50 |
50 |
50 |
50 |
50 |
50 |
|
рентабельность |
Корреляция Пирсона |
-,028 |
,689** |
,451** |
,079 |
-,249 |
1 |
Знч.(2-сторон) |
,848 |
,000 |
,001 |
,587 |
,082 |
|
|
N |
50 |
50 |
50 |
50 |
50 |
50 |
|
*. Корреляция значима на уровне 0.05 (2-сторон.). **. Корреляция значима на уровне 0.01 (2-сторон.).
|
По результатам корреляционного анализа, 3 переменные имеют зависимость с результативным признаком, это:
премии и вознаграждения на одного работника, имеет с Рентабельностью прямую среднюю зависимость, коэффициент корреляции 0,689. Это говорит нам о том, чем выше премии и вознаграждения на одного работника тем выше рентабельностью данной организации.
фондоотдача, имеет с рентабельностью среднюю прямую зависимость, коэффициент корреляции 0,451. Это говорим о том, чем выше фондоотдача в организации, тем выше рентабельность данной организации
непроизводственные расходы, имеет с Рентабельностью обратную слабую зависимость, коэффициент корреляции -0,249. Это говорит о том, чем ниже непроизводственные расходы, тем выше рентабельность данной организации.
Данные коэффициенты значимы для нашей модели, по-этому, оставим их для последующих действий.
Регрессионный анализ.
Для проведения регрессионного анализа используем метод обратного исключения – Backward.
Сводка для моделиc |
||||||||||||
Модель |
R |
R-квадрат |
Скорректированный R-квадрат |
Стд. ошибка оценки |
Дурбин-Уотсон |
|||||||
1 |
,865a |
,749 |
,732 |
2,99135 |
|
|||||||
2 |
,861b |
,741 |
,730 |
3,00145 |
1,602 |
|||||||
a. Предикторы: (конст) непроизводственные расходы, фондоотдача, премии и вознаграждения на одного работника b. Предикторы: (конст) фондоотдача, премии и вознаграждения на одного работника c. Зависимая переменная: рентабельность
|
||||||||||||
Коэффициентыa |
||||||||||||
Модель |
Нестандартизованные коэффициенты |
|
||||||||||
B |
Стд. Ошибка |
|
||||||||||
1 |
(Константа) |
-2,204 |
2,752 |
|
||||||||
премии и вознаграждения на одного работника |
6,283 |
,672 |
|
|||||||||
фондоотдача |
7,170 |
1,025 |
|
|||||||||
непроизводственные расходы |
-,110 |
,096 |
|
|||||||||
2 |
(Константа) |
-4,578 |
1,821 |
|
||||||||
премии и вознаграждения на одного работника |
6,468 |
,654 |
|
|||||||||
фондоотдача |
7,170 |
1,029 |
|
|||||||||
Коэффициентыa |
|
|||||||||||
Модель |
Стандартизованные коэффициенты |
t |
Знч. |
|
||||||||
Бета |
|
|||||||||||
1 |
(Константа) |
|
-,801 |
,427 |
|
|||||||
премии и вознаграждения на одного работника |
,716 |
9,356 |
,000 |
|
||||||||
фондоотдача |
,519 |
6,994 |
,000 |
|
||||||||
непроизводственные расходы |
-,087 |
-1,148 |
,257 |
|
||||||||
2 |
(Константа) |
|
-2,514 |
,015 |
|
|||||||
премии и вознаграждения на одного работника |
,737 |
9,889 |
,000 |
|
||||||||
фондоотдача |
,519 |
6,971 |
,000 |
|
По результатам анализа мы видим:
Так как коэффициент В отличен от 0, то все коэффициенты влияют на зависимую переменную
Все коэффициенты в равно мере значимы для данной модели, а их равность 0 можно объяснить неоднородностью выборки
Проведем анализ методом Stepwise
Сводка для моделиc |
|||||
Модель |
R |
R-квадрат |
Скорректированный R-квадрат |
Стд. ошибка оценки |
Дурбин-Уотсон |
1 |
,689a |
,474 |
,463 |
4,23562 |
|
2 |
,861b |
,741 |
,730 |
3,00145 |
1,602 |
a. Предикторы: (конст) премии и вознаграждения на одного работника b. Предикторы: (конст) премии и вознаграждения на одного работника, фондоотдача c. Зависимая переменная: рентабельность
|
Коэффициентыa |
||||||
Модель |
Нестандартизованные коэффициенты |
Стандартизованные коэффициенты |
t |
Знч. |
||
B |
Стд. Ошибка |
Бета |
||||
1 |
(Константа) |
6,855 |
1,117 |
|
6,139 |
,000 |
премии и вознаграждения на одного работника |
6,045 |
,919 |
,689 |
6,577 |
,000 |
|
2 |
(Константа) |
-4,578 |
1,821 |
|
-2,514 |
,015 |
премии и вознаграждения на одного работника |
6,468 |
,654 |
,737 |
9,889 |
,000 |
|
фондоотдача |
7,170 |
1,029 |
,519 |
6,971 |
,000 |
|
a. Зависимая переменная: рентабельность
|
Итак, мы видим, что не смотря на различность промежуточных регрессий, итоговая регрессия имеет одинаковые коэффициенты.
Backward метод сначала включает в уравнение регрессии все независимые переменные, а затем поочередно удаляет все переменные с корреляцией, уровень значимости которой выше p=0,1.
Stepwise – метод, где пошагово изменяется доля влияния независимой переменной на критерий при появлении в уравнении других независимых переменных.
Мы получили уравнение регрессии:
Y(3) = 6,468*X(8) +7,170X*(10)-4,578
Коэффициент В (стандартизованный) - коэффициент перед переменными, которые мы видим в уравнении регрессии, а так же свободный член (константа).
Бета – коэффициент (нестандартизированный) показывает в какой мере изменяется все модель от изменения фактора.
То есть, если переменную увеличить на 1, то рентабельность предприятий увеличится до У(3)*В*β:
если премии и вознаграждения (Х8) увеличить на 1, то рентабельность увеличится в 4.76 раза.
если фондоотдачу увеличить на 1, то рентабельность увеличится в 3.72 раза.
Проверим общее качество регрессионной модели и определим значимость коэффициента детерминации
Дисперсионный анализc |
||||||
Модель |
Сумма квадратов |
ст.св. |
Средний квадрат |
F |
Знч. |
|
1 |
Регрессия |
776,156 |
1 |
776,156 |
43,263 |
,000a |
Остаток |
861,141 |
48 |
17,940 |
|
|
|
Всего |
1637,297 |
49 |
|
|
|
|
2 |
Регрессия |
1213,887 |
2 |
606,944 |
67,373 |
,000b |
Остаток |
423,410 |
47 |
9,009 |
|
|
|
Всего |
1637,297 |
49 |
|
|
|
|
a. Предикторы: (конст) премии и вознаграждения на одного работника b. Предикторы: (конст) премии и вознаграждения на одного работника, фондоотдача c. Зависимая переменная: рентабельность
|
Уравнение объясняет 74.1% дисперсии зависимой переменной (коэффициент детерминации R2=0.741), скорректированная величина коэффициента равна 0.73, а коэффициент множественной корреляции равен 0.861.
Поскольку гипотеза о равенстве нулю F-статистики подтверждает гипотезу R2 =0, и в таком случае принимается гипотеза о незначимости модели, а для нашей регрессионной модели вероятность того, что R2 = 0 равна 0, так как значимость равна нулю.
В результате дисперсионного анализа, мы видим, что вычисленного значение F – статистик с вероятностью 0% равна 0, следовательно, модель значима в целом, то есть зависимость достоверна..
Проверка значимости коэффициентов модели
Наблюдаемая значимость T - статистик равна нулю, поэтому гипотеза о равенстве коэффициентов нулю отвергается для каждого коэффициента. Это означает, что все коэффициенты значимы для модели.
95,0%% доверительный интервал для B |
|
Нижняя граница |
Верхняя граница |
4,610 |
9,100 |
4,197 |
7,892 |
-8,242 |
-,915 |
5,152 |
7,784 |
5,101 |
9,239 |
Коэффициенты модели находятся равноудаленно от верхней и нижней границы доверительного интервала.
Мы проверим остатки их на автокорреляцию. Коэффициент Дарбина-Уотсона составил 1,602, то есть близок к 2, следовательно, автокорреляция отсутствует, и остатки не зависимы между собой.
По данной гистограмме, остатки подчиняются закону нормального распределения.
Таким образом, построив регрессионную модель, оценив ее качество, можно сделать вывод о том, что применимость данной модели достаточно ограничена, необходима более однородная выборка и большее число наблюдений.
Задание 2
№ варианта |
Номера предприятий |
Номер классификационных признаков, Xj |
5 |
40-50 |
Y2,X14,X15 |
Построим трехмерную диаграмму рассеяния
По диаграмме видно 3 скопления точек, следовательно, можно предположить что в модели есть 3 кластера.
Таким образом, проведем далее кластерный анализ:
Сводка обработки наблюденийa,b |
|||||
Наблюдения |
|||||
Валидные |
Пропущенные |
Всего |
|||
N |
Процент |
N |
Процент |
N |
Процент |
11 |
100,0 |
0 |
,0 |
11 |
100,0 |
a. Квадрат евклидова расстояния было использовано b. Средние связи (между группами)
|
Средние связи (между группами)
Шаги агломерации |
||||||
Этап |
Кластер объединен с |
Коэффициенты |
Этап первого появления кластера |
Следующий этап |
||
Кластер 1 |
Кластер 2 |
Кластер 1 |
Кластер 2 |
|||
1 |
43 |
45 |
11,028 |
0 |
0 |
3 |
2 |
41 |
50 |
20,773 |
0 |
0 |
6 |
3 |
42 |
43 |
62,957 |
0 |
1 |
4 |
4 |
42 |
44 |
180,694 |
3 |
0 |
8 |
5 |
40 |
48 |
248,534 |
0 |
0 |
7 |
6 |
41 |
46 |
478,151 |
2 |
0 |
8 |
7 |
40 |
47 |
764,123 |
5 |
0 |
9 |
8 |
41 |
42 |
938,388 |
6 |
4 |
9 |
9 |
40 |
41 |
4153,767 |
7 |
8 |
10 |
10 |
40 |
49 |
43137,846 |
9 |
0 |
0 |
Коэффициенты при объединении кластеры должны увеличиваться равномерно. Считается, что количество всех наблюдений за вычетом тех, с которого образовался первый скачек, есть оптимальное количество кластеров. То есть 11 – 8 = 3, что соответствует выделенному ранее количеству.
По дендрограмме мы видим, как поэтапно наблюдения объединяются в кластеры. Таким образом, на первом этапе объединяются в 1ую группу наблюдения 43,45,42,44,41,50,46, во 2ую группу – 40,48,47 и в 3юю группу – 49 наблюдение. На втором этапе объединяется группа 1 и 2, на третьем – вся совокупность.
Если ввести в условие кластерного анализа количество групп равное 3, то выведется таблица принадлежности наблюдений к кластерам.
Принадлежность к кластерам |
|
Наблюдение |
3 кластеров |
40 |
1 |
41 |
2 |
42 |
2 |
43 |
2 |
44 |
2 |
45 |
2 |
46 |
2 |
47 |
1 |
48 |
1 |
49 |
3 |
50 |
2 |
Итак, подтвердилась изначальная гипотеза, основанная на диаграмме рассеяния, о том, что данную выборку можно разделить на 3 кластера.
В первый кластер вошли предприятия где относительно высокая фондовооруженность труда, низкий индекс снижения себестоимости продукции и средние непроизводственные расходы.
Во втором кластере предприятия, которые имеют низкую фондовооруженность труда, низкий индекс снижения себестоимости продукции и высокие непроизводственные расходы.
В третий кластер вошло 1 предприятие, где высокая фондовооруженность труда, высокий индекс снижения себестоимости продукции и низкие непроизводственные расходы.
Задание 3