Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Практикум по прикладой статистике

.pdf
Скачиваний:
118
Добавлен:
02.05.2015
Размер:
4.48 Mб
Скачать

О. А. Хохлова М. Ц. Будажанаева

ЛАБОРАТОРНЫЙ ПРАКТИКУМ ПО ПРИКЛАДНОЙ СТАТИСТИКЕ (часть 2)

МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ

ППП STATISTICA

Учебное пособие

Улан-Удэ

2011

0

Министерство образования и науки Российской Федерации Государственное образовательное учреждение

высшего профессионального образования «Восточно-Сибирский государственный технологический университет»

(ГОУ ВПО ВСГТУ)

Хохлова О. А. Будажанаева М. Ц.

ЛАБОРАТОРНЫЙ ПРАКТИКУМ ПО ПРИКЛАДНОЙ СТАТИСТИКЕ (часть 2)

МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ

ППП STATISTICA

Учебное пособие

Улан-Удэ Издательство ВСГТУ

2011

1

УДК 519.237:004(075.8)

ББК 22.172:32.973.26-018.2я73 Х 862

Печатается по решению редакционно-издательского совета Восточно-Сибирского государственного технологического университета

Рецензенты:

канд. экон. наук, доцент, К.П. Дырхеев канд. экон. наук, С.С. Михайлова

Хохлова О.А., Будажанаева М.Ц.

Х862 Лабораторный практикум по прикладной статистике (часть 2). Многомерный статистический анализ данных с использованием ППП

Statistica. – Улан-Удэ: Изд-во ВСГТУ, 2011. – 148 с.

Практикум содержит описание реализации методов многомерного статистического анализа: регрессионного, факторного, компонентного, кластерного и дискриминантного с использованием пакета прикладных программ Statistica. В практикуме изложены теоретические основы и математический алгоритм указанных методов, а также представлены индивидуальные задания по каждой теме.

Практикум предназначен для студентов экономических направлений, изучающих многомерные статистические методы, эконометрику и другие математико-статистические дисциплины, а также для аспирантов, специалистов, сталкивающихся с задачей обработки данных с использованием компьютерных технологий.

ББК 22.172:32.973.26-018.2я73

©Хохлова О.А., Будажанаева М.Ц., 2011

©ВСГТУ, 2011

2

Оглавление

Тема 1. Множественный регрессионный анализ.....................................

4

Теоретические основы ...........................................................................

4

Решение типовой задачи с помощью ППП Statistica ..........................

8

Задания для самостоятельной работы ................................................

18

Тема 2. Факторный анализ.......................................................................

21

Теоретические основы .........................................................................

21

Решение типовой задачи с помощью ППП Statistica ........................

27

Задания для самостоятельной работы ................................................

39

Тема 3. Компонентный анализ ................................................................

44

Теоретические основы .........................................................................

44

Решение типовой задачи с помощью ППП Statistica ........................

51

Задания для самостоятельной работы ................................................

63

Тема 4. Кластерный анализ......................................................................

66

Теоретические основы .........................................................................

66

Решение типовой задачи с помощью ППП Statistica ........................

81

Задания для самостоятельной работы ................................................

93

Тема 5. Дискриминантный анализ ..........................................................

96

Теоретические основы .........................................................................

96

Решение типовой задачи с помощью ППП Statistica ......................

105

Задания для самостоятельной работы ..............................................

123

Список рекомендуемой литературы……………………….………….128

Приложения…………...……………………………..………………..…129

3

Тема 1. Множественный регрессионный анализ

Теоретические основы

Множественный регрессионный анализ - это метод исследования формы аналитической зависимости между результирующей (зависимой) переменной и несколькими объясняющими (независимыми) переменными.

Регрессионный анализ используется для решения следующих прикладных задач:

установление статистически значимой связи между зависимой переменной и набором независимых переменных;

прогнозирование или восстановление неизвестных значений зависимой переменной при заданных значениях независимых переменных;

выявление причинных связей между набором объясняющих переменных и результирующей переменной для управления значениями зависимой переменной путем регулирования значений независимых [1, с. 354-356].

В частности, множественный регрессионный анализ применяется для моделирования макроэкономической ситуации, прогнозирования развития товарных и финансовых рынков, управления издержками производства и пр.

Классической моделью множественного регрессионного анализа является линейное уравнение вида:

yi 0 1 xi1 2 xi2 r xir i ,

где y - зависимая переменная;

x1 , x2 , xr - набор независимых переменных;

0 , 1 , 2 r - параметры уравнения регрессии;

i - остатки.

Множественный регрессионный анализ состоит из четырех этапов:

1)определение набора объясняющих переменных;

2)установление формы аналитической связи (вида уравнения);

4

3)определение параметров (коэффициентов) уравнения регрессии;

4)оценка надежности результатов регрессии.

На первом этапе применяется корреляционный анализ, который позволяет, во-первых, выделить переменные, обладающие наибольшей статистической связью с зависимой переменной, вовторых, исключить проблему мультиколлинеарности факторных переменных.

Для выбора формы уравнения регрессии применяется графический метод представления данных.

Значения коэффициентов уравнения множественной регрессии оцениваются методом наименьших квадратов, методом максимального правдоподобия. Описание указанных методов приведено в [8].

Оценка надежности результатов регрессии заключается в проверке значимости уравнения множественной регрессии с помощью F-критерия Фишера и коэффициентов уравнения с помощью t–критерия Стьюдента.

Рассмотрим реализацию множественного регрессионного анализа на следующем примере.

Пример 1.1. В розничный магазин еженедельно поставляется новая партия йогурта. Сотрудниками магазина замечено, что продукция с большим остаточным сроком хранения реализуется лучше. В таблице представлены данные исследования ежедневного объема продаж йогурта из различных партий.

 

 

Таблица 1.1

 

Результаты исследования продаж йогурта

 

 

 

Объем продаж

Цена (P).,

Количество дней до истечения срока

(Q), шт

руб.

годности партии продукции (D), дней

360

15,3

26

300

16

24

220

17,5

21

265

15,9

19

315

15,7

24

В ходе наблюдений установлено наличие взаимосвязи между объемом продаж, ценой и сроком годности продукта. Требуется:

5

1) определить параметры уравнения множественной регрессии Q 0 1 P 2 D i ;

2)проверить на уровне α=0,05 значимость уравнения регрессии и его параметров;

3)оценить изменение объема продаж Q при P=16,5 руб. и D=28 дней.

Решение:

1. В качестве метода оценки параметров уравнения используется метод наименьших квадратов, в соответствии с

ˆ

 

1

 

ˆ

которым

X X

X Y , где

 

– вектор оценок параметров

уравнения, Х – матрица независимых переменных, Y – вектор независимых переменных.

В результате проведенных расчетов получена следующая

оценка:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

731,33

 

ˆ

 

1

 

 

 

0

 

 

 

 

 

1

 

 

40,56

.

X X

 

X Y

 

 

 

 

 

2

 

 

9,33

 

 

 

 

 

 

 

 

 

Уравнение регрессии принимает вид:

Q 731,33 40,56P 9,33D i .

Параметры уравнения показывают, что снижение цены на 1 рубль приведет к увеличению объема продаж в среднем на 40 шт. в день, а увеличение срока годности (в случае поступления партии продукции с большим сроком годности) на 1 день приведет к увеличению объема продаж в среднем на 9 шт.

2.Для оценки надежности уравнения определить

наблюдаемое

 

значение

 

F-критерия Фишера по формуле

F

 

 

R2

 

 

n m 1

,

где R2 – множественный коэффициент

 

 

 

 

 

 

набл

1

R2

 

 

m

 

 

 

 

 

 

 

детерминации, n – число наблюдений, m – число независимых переменных.

6

 

Коэффициент

детерминации

вычисляется

следующим

образом:

 

 

 

 

 

 

 

R2

rPQ2 rDQ2

2rPD rPQ rDQ

 

0,9 2 0,832 2 0,53 0,9 0,83

0,99 .

 

 

 

 

1 0,53 2

 

1

r 2

 

 

 

 

 

 

 

 

 

 

 

PD

 

 

 

 

 

 

 

Коэффициент

детерминации

показывает,

что набор

независимых переменных объясняет 99% вариации зависимой переменной.

На основе значения коэффициента детерминации

рассчитывается критерий значимости уравнения:

 

F

 

0,99

 

5 2 1

99 .

 

 

 

 

набл

 

1 0,99

2

 

 

 

 

 

 

Сравнивается Fнабл

и

Fтабл ( 0,05; 1 m; 2

n m 1) ,

если фактическое значение F-критерия превышает табличное значение, то уравнение статистически значимо:

Fнабл 99 > Fтабл ( 0,05; 1 m; 2 n m 1) 19 .

Таким образом, уравнение регрессии статистически значимо. Для оценки значимости параметров уравнения

рассчитываются наблюдаемые значения t–критерия Стьюдента.

 

 

Для

параметра

1 значение критерия

 

рассчитывается

следующим образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2

rQD

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,99 0,832

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

расч

 

 

 

 

 

 

 

 

n m 1

 

 

 

 

 

5 2 1 7,76 .

 

 

 

 

 

 

 

 

 

 

1 R2

 

 

 

 

 

 

 

 

 

 

1 0,99

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для параметра 2

значение критерия следующее:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R 2

rQP

 

 

 

 

 

 

 

 

 

0,99 0,90 2

 

 

 

 

 

 

t расч

 

 

n m 1

 

 

5 2 1 6,0 .

 

1 R 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 0,99

 

 

 

 

 

 

Табличное

 

 

 

 

значении

 

 

критерия

 

составляет

tтабл ( / 2; n m 1) tтабл (0,025;2) 4,3,

 

следовательно,

параметры уравнения регрессии статистически значимы.

3. Для оценки объема продаж необходимо подставить значения объясняющих переменных в уравнение регрессии:

ˆ

40,56 16,5

9,33 28

323 шт.

Q 731,33

 

 

7

 

Решение типовой задачи с помощью ППП Statistica

Задача. Для изучения социально-экономического положения регионов России используется модель линейной множественной регрессии со следующим факторным (у) и результативными (xi) показателями:

у – среднедушевые денежные доходы населения, тыс. руб.; х1 – уровень безработицы по методологии МОТ, %; х2 – доля занятого населения с высшим профессиональным

образованием, %; х3 – доля продукции сельского хозяйства в ВРП, %;

х4 – степень износа основных производственных фондов, %.

Определить параметры уравнения множественной регрессии методом пошагового анализа, сформулировать выводы.

Таблица 1.2 Показатели социально-экономического положения регионов России

Регион

 

 

Показатели

 

 

у

х1

х2

х3

х4

 

 

Белгородская область

 

7,08

5,6

22,7

12,5

39,2

Брянская область

 

6,11

6,8

27,6

13,8

40,6

Владимирская область

 

5,69

10,9

21,7

11,8

40,7

Воронежская область

 

7,02

5,5

23,6

10,4

48,1

Ивановская область

 

4,47

4,2

21,1

9,4

44,2

Калужская область

 

6,99

5,6

25,1

11,5

41,8

Костромская область

 

6,23

5,0

19,2

17,5

29,5

Курская область

 

6,71

7,3

23,8

15,2

48,6

Липецкая область

 

7,71

4,9

19,4

7,5

44,1

Московская область

 

10,80

3,0

27,0

4,9

40,1

Орловская область

 

5,88

6,0

24,2

14,2

41,4

Рязанская область

 

6,18

5,2

22,1

12,8

43,3

Смоленская область

 

6,87

8,0

19,9

11,0

40,3

Тамбовская область

 

6,87

8,7

21,1

15,3

55,4

Тверская область

 

7,31

4,5

19,4

8,1

36,1

Тульская область

 

6,64

2,7

18,6

8,8

47,1

Ярославская область

 

8,15

3,0

22,4

5,9

45,1

г. Москва

 

29,80

1,6

48,5

0,0

30,0

Республика Карелия

 

8,80

3,6

18,4

6,1

26,0

 

8

 

 

 

 

 

Продолжение таблицы 1.2

Республика Коми

13,41

12,4

19,2

3,2

49,4

Архангельская область

9,54

5,9

19,3

5,4

41,9

Вологодская область

8,67

5,3

18,3

7,5

46,1

Калининградская область

8,89

4,5

22,7

5,7

32,6

Ленинградская область

8,29

5,9

22,4

9,0

34,4

Мурманская область

12,58

6,7

21,8

0,6

41,2

Новгородская область

7,21

5,5

21,7

9,8

38,6

Псковская область

6,38

7,4

25,6

11,2

40,0

г. Санкт-Петербург

14,10

2,4

35,4

0,0

37,3

Республика Адыгея

4,71

13,7

25,2

16,6

56,1

Республика Дагестан

6,26

22,3

21,7

21,7

42,1

Республика Ингушетия

2,92

58,5

24,8

22,6

53,5

Кабардино-Балкарская Республика

5,08

20,7

27,8

27,1

32,4

Республика Калмыкия

3,52

16,7

25,5

26,7

38,6

Карачаево-Черкесская Республика

5,53

19,4

27,7

23,2

38,6

Республика Северная Осетия – Алания

6,03

8,5

31,5

17,7

43,5

Краснодарский край

7,22

7,4

22,3

15,4

34,6

Ставропольский край

6,59

8,9

25,3

16,3

47,9

Астраханская область

7,09

7,9

20,6

7,7

51,0

Волгоградская область

7,91

8,6

22,9

9,7

50,1

Ростовская область

7,54

8,0

22,9

13,2

40,3

Республика Башкортостан

8,91

6,5

17,5

10,6

43,7

Республика Марий Эл

4,91

10,2

18,3

20,4

58,5

Республика Мордовия

4,88

4,7

26,2

21,0

55,7

Республика Татарстан

9,37

5,6

21,2

7,8

45,0

Удмуртская Республика

6,23

8,4

19,3

7,0

54,4

Чувашская Республика

5,38

8,6

22,1

14,2

46,6

Пермский край

10,98

6,9

19,7

3,9

52,0

Кировская область

5,77

7,9

20,1

17,4

44,3

Нижегородская область

8,02

5,3

24,0

5,8

48,2

Оренбургская область

6,18

6,5

20,0

9,0

59,4

Пензенская область

5,66

6,5

24,1

14,0

54,8

Самарская область

11,53

4,3

26,2

4,4

53,7

Саратовская область

6,14

8,2

25,3

15,4

48,9

Ульяновская область

6,16

6,9

18,5

11,0

45,9

Курганская область

6,54

12,4

16,7

15,2

47,5

Свердловская область

11,01

7,0

19,2

4,7

52,9

Тюменская область

18,62

6,8

23,1

0,8

54,3

Челябинская область

8,61

5,1

21,3

8,3

45,6

9