Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

.pdf
Скачиваний:
134
Добавлен:
14.03.2016
Размер:
5.88 Mб
Скачать

Вариант 2. Имеются результаты измерения спортивных показателей X1, X2, X3 мужчин-спортсменов в количестве 48 человек (таблица 2.7).

Таблица 2.7 – Вариант 2

X1

X2

X3

X1

X2

X3

1

171,9

4255

1,52

25

152,5

5134

4,86

2

192,7

4244

2,62

26

166,24

4173

5,02

3

112,1

3951

2,74

27

185,8

5297

5,02

4

159,7

4200

2,89

28

117,09

4023

5,15

5

110,8

3878

3,14

29

124,84

4146

5,6

6

117,3

4026

3,14

30

153,34

4998

5,78

7

174,0

4244

3,23

31

151,09

5165

5,81

8

118,8

4026

3,33

32

194,92

5554

5,82

9

151,9

4140

3,41

33

175,81

5446

5,91

10

127,8

3872

3,48

34

152,94

5271

5,94

11

110,4

3989

3,65

35

136,07

5174

5,95

12

179,8

4165

3,71

36

193,53

5419

5,99

13

133,3

3995

3,8

37

165,37

5448

6,37

14

137,0

4000

3,81

38

196,5

5604

6,79

15

166,3

4244

3,86

39

160,99

5378

6,8

16

168,5

4335

3,95

40

187,74

5673

6,84

17

107,8

4202

3,99

41

142,21

4892

7,19

18

182,9

4160

4,04

42

157,07

5103

7,2

19

161,7

4238

4,09

43

150,08

5005

7,37

20

160,8

4183

4,11

44

143,53

5041

7,41

21

116,3

4098

4,16

45

191,75

5594

8,18

22

122,9

3956

4,2

46

192,68

5455

8,23

23

102,9

3973

4,29

47

145,32

5320

8,48

24

110,6

3917

4,66

48

191,8

5590

8,59

 

 

 

 

61

 

 

 

Вариант 3. Имеются результаты измерения спортивных показателей X1, X2, X3, X4 женщин-спортсменок в количестве 40 человек (таблица 2.8).

Таблица 2.8 – Вариант 3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X1

 

X2

 

X3

 

X4

 

 

X1

 

X2

 

X3

 

 

X4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

4,78

 

142,4

 

1653

 

2821

 

21

5,96

 

182,4

 

 

1353

 

 

 

3057

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

7,04

 

196,3

 

1471

 

1566

 

22

5,73

 

143,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1691,2

 

 

 

3516

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

6,56

 

194,4

 

1419

 

1413

 

23

11,48

 

205,2

 

 

1722,4

 

 

 

5231

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

6,64

 

199,7

 

1347

 

2964

 

24

14,08

 

 

201,4

 

 

1777,2

 

 

5515

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

9,25

 

222,8

 

1748

 

5546

 

25

 

5,79

 

 

141,0

 

 

1692,7

 

 

4194

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

10,57

 

209,4

 

1730

 

5505

 

 

26

 

 

5,98

 

 

204,4

 

 

1494,7

 

 

1685

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

5,1

 

152,0

 

1593

 

3882

 

 

27

 

 

5,87

 

 

192,3

 

1506,3

 

 

2867

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

5,65

 

135,4

 

1618

 

 

4000

 

 

28

 

 

5,37

 

139,2

 

1654,3

 

 

3723

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

11,37

 

216,2

 

 

1775

 

 

5695

 

 

29

 

10

 

219,3

 

1713,5

 

 

6523

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

6,38

 

185,4

 

 

1482

 

 

2657

 

 

30

 

9,29

 

221,0

 

1782,3

 

 

5662

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

7,14

 

192,9

 

 

 

 

 

31

10,84

 

211,1

 

1739,4

 

 

5155

 

 

 

 

 

1467

 

 

1854

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

6,81

 

 

187,3

 

 

 

 

 

32

6,62

 

201,0

 

1537,4

 

 

2893

 

 

 

 

 

 

1487

 

 

4082

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

13

7,07

 

 

191,0

 

 

1388

 

3216

 

33

11,16

 

209,2

 

1755,2

 

 

4766

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

 

9,08

 

 

 

 

 

5762

 

34

5,85

 

157,4

 

1695

 

 

2967

 

 

 

 

 

206,4

 

 

1767

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

6,63

 

 

190,0

 

1375

 

4535

 

35

6,76

 

187,4

 

1389,4

 

 

2272

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

16

 

 

11,65

 

219,0

 

1757

 

5195

 

36

6,43

 

199,3

 

1425,4

 

 

2055

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

17

 

 

5,95

 

148,1

 

1635

 

3537

 

37

12,9

 

208,9

 

1833,4

 

 

6252

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

18

5,42

 

172,2

 

1668

 

3207

 

38

9,88

 

206,2

 

1813,2

 

 

5855

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

19

11,11

 

205,4

 

1763

 

6142

 

39

13,2

 

215,2

 

1727,3

 

 

5504

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

10,58

 

216,0

 

1741

 

5537

 

40

5,42

 

147,0

 

1696,9

 

 

3842

 

 

Вариант 4. Имеются результаты измерения спортивных показателей X1, X2, 62

X3 мужчин-спортсменов в количестве 40 человек (таблица 2.9).

Таблица 2.9 – Вариант 4

 

X1

 

X2

 

X3

 

 

X1

 

X2

 

X3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

50,79

 

91,63

 

4989

 

21

 

31,69

 

83,89

 

3961

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

33,52

 

95,43

 

3571

 

22

 

36,68

 

96,02

 

 

3519

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

35,14

 

97,85

 

4172

 

23

 

40

 

103,73

 

 

4803

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

50,92

 

136,09

2389

 

24

 

80,41

 

 

114,89

 

 

 

 

 

 

 

 

 

 

 

2063

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

40,91

 

91,53

 

4388

 

25

 

36,35

 

 

 

 

 

 

 

 

 

 

 

 

89,94

 

 

3659

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

28,55

 

89,23

 

3416

 

26

 

 

46,45

 

 

104,11

 

 

3994

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

40,11

 

88,61

 

4659

 

27

 

 

 

 

 

 

 

4574

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27,4

 

 

91,51

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

62,17

 

128,32

2665

 

 

28

 

 

78,07

 

144,64

 

2635

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

38,1

 

85,98

 

 

3410

 

 

 

 

 

98,87

 

4529

 

 

 

 

 

 

 

29

 

 

41,85

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

35,42

 

 

86,24

 

 

 

 

 

33,34

 

89,87

 

3226

 

 

 

 

 

3769

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

32,76

 

 

 

 

 

31

 

62,91

 

131,84

 

2745

 

 

 

96,06

 

 

4206

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

57,81

 

 

113,19

 

 

2660

 

32

 

27,14

 

79,82

 

4078

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

13

 

 

 

 

 

 

 

 

 

33

 

25,5

 

105,48

 

5259

 

 

 

 

 

 

 

 

 

 

 

 

78,43

 

 

107,8

 

 

2311

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

 

 

79,89

 

 

139,5

 

2885

 

34

 

37,24

 

92,11

 

4480

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

33,31

 

 

90,3

 

4109

 

35

 

39,9

 

92,04

 

4700

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

16

 

 

55,05

 

119,09

2438

 

36

 

65,99

 

126,78

 

2100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

17

 

77,52

 

117,78

2166

 

37

 

33,56

 

86,86

 

2986

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

18

19,57

 

99,21

 

4938

 

38

 

65,77

 

118,07

 

2537

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

19

39,49

 

111,43

4491

 

39

 

53,69

 

126,32

 

2580

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

32,51

 

88,74

 

4950

 

40

 

73,35

 

128,78

 

2442

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вариант 5. Имеются результаты измерения спортивных показателей X1, X2, 63

X3, X4 мужчин-спортсменов в количестве 45 человек (таблица 2.10).

Таблица 2.10 – Вариант 5

X1

X2

X3

X4

X1

X2

X3

X4

1

3,84

40,19

155,6

7791

24

6,21

63,18

820,2

3575

2

3,40

48,67

150,9

5581

25

4,25

41,63

173,9

5515

3

3,76

41,66

147,3

5836

26

6,49

54,41

800,4

3495

4

5,92

61,66

814,3

3462

27

6,26

61,06

826,9

3512

5

6,20

68,74

801,2

3496

28

2,80

36,91

149,3

5154

6

6,31

65,77

760,2

3496

29

4,86

39,85

439,0

3033

7

4,14

37,49

148,9

4810

30

3,69

39,6

148,7

3485

8

3,28

44,65

439,1

3022

31

4,99

42,98

481,7

3000

9

4,64

46,97

321,3

3028

32

3,43

40,53

145,6

5328

10

4,73

44,23

476,6

2915

33

4,77

45,41

451,1

3009

11

6,53

61,53

780,5

3505

34

6,00

65,85

800,2

3497

12

5,81

65,38

774,2

3466

35

3,99

45,59

307,1

2961

13

3,78

43,85

401,3

2983

36

3,39

44,71

426,3

3006

14

3,46

35,54

165,8

5571

37

3,92

36,71

165,9

7836

15

3,82

44,87

417,7

2957

38

4,13

38,68

160,2

6746

16

5,81

60,12

813,1

3503

39

6,16

58,58

812,0

3541

17

3,91

38,96

153,7

5136

40

5,83

58,41

819,5

3516

18

3,94

41,24

264,6

2979

41

3,77

44,64

163,1

7922

19

6,08

60,17

742,0

3549

42

3,32

39,39

150,1

3958

20

6,08

66,81

814,9

3528

43

4,01

43,98

524,9

3079

21

5,78

58,1

758,8

3505

44

4,87

41,29

351,0

3037

22

3,50

49,98

393,1

3065

45

3,90

43,57

153,4

9017

23

4,03

48,52

342,1

2967

 

 

 

 

 

 

 

3 РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ

 

 

 

 

 

 

64

 

 

 

 

3.1 Постановка задачи регрессионного анализа

Существует большой класс задач, для которых требуется установить зависимость между признаками (атрибутами, показателями), которые описывают исследуемый процесс или объект предметной области. Для этого строятся различные модели, в которых данные признаки выступают в качестве переменных. Если модель будет корректно отражать зависимость между входными и выходными переменными, то с помощью такой модели можно будет предсказывать значения выходной переменной по заданным значениям входных [8].

Как правило, реальные процессы в спортивной медицине и спорте достаточно сложны, и для их описания требуется большое количество переменных, которое может насчитывать и несколько десятков в зависимости от сложности объекта исследования.

Рассмотрим простой пример. В таблице 3.1 представлены лучшие результаты в беге на 100 м и по прыжкам в длину спортсменов различной квалификации. Выявим зависимость в данных с помощью линейной регрессии.

Таблица 3.1 –Результаты спортсменов различной квалификации

Бег на 100 м, с

10,00

10,20

10,30

10,40

10,60

10,70

10,80

 

 

 

 

 

 

 

 

Прыжки в длину, м

8,80

8,65

8,70

8,00

7,70

7,20

6,95

 

 

 

 

 

 

 

 

Бег на 100 м, с

11,00

11,30

11,50

11,90

12,00

12,20

12,30

 

 

 

 

 

 

 

 

Прыжки в длину, м

6,70

6,90

6,60

6,55

6,40

6,10

6,20

 

 

 

 

 

 

 

 

Цель анализа – оценка ожидаемых результатов прыжка в длину, м, в зависимости от времени бега, с, на дистанции 100 м.

Если предположить, что зависимость между переменными линейная, то для построения модели достаточно провести прямую линию, проходящую через «облако» точек, соответствующих наблюдениям (рисунок 3.1). Тогда наклон линии покажет, насколько уменьшится результат при увеличении времени.

Если мы хотим смоделировать зависимость прыжка в длину в метрах от времени бега на дистанцию 100 метров, то нужно построить прямую, каждая точка которой будет представлять собой оценку прыжка в длину для заданного времени бега. Однако таких линий можно построить бесконечно много, и только одна из них обеспечит оптимальную оценку прыжка в длину. Естественным было бы провести линию таким образом, чтобы рассеяние вдоль нее точек, соответствующих реальным наблюдениям, было минимальным.

65

Рисунок 3.1

На практике линию строят так, чтобы сумма квадратов отклонений наблюдаемых значений от оцененных с помощью данной линейной зависимости была минимальной, то есть (22):

n

 

 

22

ˆ

2

min,

( yi

yi )

i 1

где n – число наблюдений; yˆi – оценка выходного значения i-го наблюдения,

полученная с помощью модели; yi – реально наблюдаемое значение в i-м наблюдении [8].

Данный метод известен как метод наименьших квадратов (МНК), а линия построенная с его помощью, называется линией регрессии.

Линия регрессии – это прямая наилучшего приближения для набора пар значений входной и выходной переменной (х, у), выбираемая таким образом, чтобы сумма квадратов расстояний от точек (хi, yi) до этой прямой, измеренных вертикально (то есть вдоль оси у), была минимальна.

66

Уравнение, описывающее линию регрессии, называется уравнением

регрессии (23):

 

yˆ = b0+b1x,

(23)

где yˆ – оценка значения выходной переменной; b0 – точка пересечения линии с осью у, называемая также свободным членом. Это значение, которое принимает выходная переменная yˆ при х = 0. Коэффициент b1 определяет наклон линии

относительно оси х.

Коэффициенты линейного уравнения b0 и b1 называются коэффициентами регрессии.

Таким образом, задача построения модели простой линейной регрессии сводится к нахождению таких коэффициентов b0 и b1 для которых сумма квадратов ошибок, то есть разностей между реально наблюдаемыми значениями выходной

переменной yi, и их оценками

ˆ

была бы минимальна. Уравнение регрессии с учетом

yi

ошибки между наблюдаемым и оцененным значениями будет следующее (24):

(24)

 

 

yi = b0 +b1х + ε,

 

 

ˆ

 

где ε – ошибка.

Тогда сумму квадратов ошибок по всем наблюдениям можно вычислить следующим образом (25):

n

 

n

n

 

E ε2 ( yˆi yi )2

(yi b0 b1x)2.

(25)

i

1

i 1

i 1

 

Мы можем найти значения b0 и которые минимизируют путем дифференцирования уравнения (23) по b0 и b1. Частные производные для уравнения (25) по b0 и b1 соответственно будут (26):

E

n

 

E

n

 

2 (yˆi

b0 b1x);

2 xi (yˆi b0 b1x).

(26)

b0

b1

i 1

 

i 1

 

Как известно, в точке, где функция минимальна, ее производная обращается в ноль. Поэтому нас интересуют значения b0 и b1 которые обращают (25) в ноль, то есть (27):

n

n

 

27

ˆ

ˆ

b0 b1x) 0.

(yi

b0 b1x) 0; xi (yi

i 1

i 1

 

 

Опустив некоторые промежуточные выкладки, сразу запишем результат (28):

 

n

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

xi yi

xi

yi

n

 

 

1

n

 

b1

n

 

b1

i 1

 

i 1

 

i 1

 

 

 

; b0

 

yi

 

xi yср b1xср ,

(28)

 

 

 

 

 

2

 

 

 

 

 

n

2

 

 

n

 

 

 

 

 

 

n i 1

 

n i 1

 

 

 

xi

 

 

xi

 

n

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

где n – общее число наблюдений; yср – среднее значение выходной переменной; хср – среднее значение входной переменной [8].

67

Уравнения (28) – это полученные методом МНК для значений b0 и b1 оценки, которые минимизируют сумму квадратов ошибок.

Разности между наблюдаемыми значениями выходной переменной и значениями, оцененными с помощью регрессии, называются остатками. Справедливо:

наблюдение = оценка + остаток.

Используя МНК, вычислим оценки коэффициентов регрессии для данных из таблицы 3.1: b1 = 19,63; b0 = –1,12.

Уравнение регрессии будет иметь следующий вид: yˆi = 19,63 – 1,12x.

Смысл коэффициентов уравнения регрессии следующий: b0 – это значение выходной переменной у при значении входной переменной х = 0. Значит, если бы спортсмен пробежал дистанцию 100 метров за 0 секунд, то оценка его прыжка в длину составила бы 19,63 метра. Однако данная формальная интерпретация явно противоречит здравому смыслу, поскольку спортсмен не может бежать бесконечно быстро. Отсюда вытекает одно из ограничений линейной регрессии: линию регрессии следует считать подходящей аппроксимацией некоторой реальной функции только в том диапазоне изменений входной переменной х, в котором распределены исходные наблюдения. В противном случае результаты могут оказаться непредсказуемым [8].

Значение коэффициента наклона линии регрессии b1 можно интерпретировать как среднюю величину изменения значения выходной переменной при изменении значения входной переменной на единицу. В нашем примере это означает, что при увеличении результата в беге на одну секунду можно ожидать увеличения расстояния прыжка в среднем на 1,12 метра.

Линия регрессии для найденного нами уравнения представлена на рисунке 3.1. Для линии регрессии сумма квадратов вертикальных расстояний между точками данных и линией должна быть меньше, чем аналогичная сумма квадратов для любой другой прямой.

3.2 Линейная регрессионная модель

Простая линейная регрессионная модель задается следующим образом [8]. Пусть имеется выборка данных, содержащая n наблюдений, в каждом из которых значению независимой переменной хi соответствует значение зависимой переменной yi связанных с помощью линейной зависимости:

у = b0 + b1 x + ε,

где b0 и b1 – параметры модели, определяющие точку пересечения линии регрессии с осью у и наклон линии регрессии соответственно; ε – остатки, определяющие ошибку отклонения реального наблюдения от оценки, полученной с помощью данной модели.

68

В общем случае линейные регрессионные модели с несколькими независи-

мыми переменными будут иметь следующий вид (29):

 

у = b0 + b1 x1 + b2 x2 + … + bk xk + ε,

(29)

где b0, b1, b2 , …, bk – параметры модели.

 

Предположения об остатках ε следующие:

 

1)остатки ε является случайной величиной с нулевым средним значением;

2)дисперсия остатков ε является постоянной величиной;

3)отдельные значения остатков ε являются независимыми;

4)остатки ε является нормально распределенной случайной переменной.

3.3 Оценка соответствия простой линейной регрессии реальным данным

Линия регрессии должна аппроксимировать линейные отношения между входной и выходной переменными модели. Однако при этом возникает вопрос, насколько линейная аппроксимация соответствует наблюдаемым данным. Чтобы определить это, введем в рассмотрение два показателя – стандартную ошибку

ˆ

и коэффициент детерминации R

2

[8].

оценивания Ест

 

В статистике мерой разброса случайной величины относительно среднего значения является стандартное отклонение. Аналогично в качестве меры разброса точек наблюдений относительно линии регрессии можно использовать стандартную ошибку оценивания, которая показывает среднюю величину отклонения точек исходных данных от линии регрессии вдоль оси у. Стандартная ошибка равна корню квадратному среднеквадратической ошибки (СКО) [8], которая определяется как сумма квадратов разностей между реальным и оцененным значениями, вычисленной по всем наблюдениям и отнесенной к их числу (30):

СКО

1

n

2

 

30

 

ˆ

.

 

 

 

( yi yi )

 

n i 1

 

 

 

СКО можно рассматривать как меру изменчивости выходной переменной, объясняемую регрессией. Тогда стандартная ошибка оценивания определяется следующим образом (31):

 

 

 

 

 

1

n

 

2

 

 

 

 

 

 

 

 

 

 

ˆ

=

СКО

 

( yi

ˆ

.

31

 

 

Eст

 

yi )

 

 

 

 

 

 

n i 1

 

 

 

 

Значение стандартной

 

ошибки

 

ˆ

позволяет оценить

степень

 

 

Ест

рассогласования оценок, полученных с помощью регрессии, и реальных наблюдений аналогично тому, как стандартное отклонение позволяет оценить в статистическом анализе степень разброса случайной величины относительно среднего. Чем меньше стандартная ошибка оценивания, тем лучше работает модель.

69

Рассмотрим пример из литературы [8]. Имеется выборка, в которой представлены данные, описывающие результаты соревнований по спортивному ориентированию: расстояние в километрах, пройденное десятью участниками за определенное время, выраженное в часах. На основе наблюдений за участниками соревнований было получено уравнение регрессии у = 6 + 2х. Пройденное расстояние определяется как 6 км плюс удвоенное количество часов, затраченных на движение. Уравнение позволяет оценить расстояние, пройденное за произвольное количество часов. Полученные оценки представлены в таблице 3.2.

Таблица 3.2 – Расчет СКО для примера о спортивном соревновании

№ участ-

Время,

Расстояние,

Оцененное

Ошибка оцени-

(у– yˆ )2

ника

 

х, ч

у, км

расстояние, у= 6 + 2х

вания, у– yˆ

 

 

 

 

 

 

 

 

 

 

1

 

2

10

10

0

0

2

 

2

11

10

1

1

3

 

3

12

12

0

0

4

 

4

13

14

-1

1

5

 

4

14

14

0

0

6

 

5

15

16

-1

1

7

 

6

20

18

2

4

8

 

7

18

20

-2

4

9

 

8

22

22

0

0

10

 

9

25

24

1

1

( y yˆ)2

 

 

 

 

12

Из

таблицы 3.2 видно, что сумма квадратов ошибок оценивания

( y yˆ)2

12.Эта величина представляет собой общую меру ошибки оценива-

ния значения выходной переменной с помощью данного уравнения регрессии. Если она велика, то модель работает неудовлетворительно. Является ли значение, равное 12, большим? Достоверно сказать нельзя, поскольку на данном этапе мы не имеем других мер для сравнения.

Стандартная ошибка будет ˆ =1,1. Следовательно, при оценке

Ест 12 10

пути, пройденного участником соревнований, с помощью уравнения yˆ = 6 + 2х

ожидаемая ошибка равна 1,1 км.

Теперь предположим, что информация о количестве часов, которое каждый участник соревнований провел в пути, отсутствует, то есть использовать переменную х для оценивания переменной у невозможно. Полученные в этом случае оценки пройденного расстояния окажутся менее точными, поскольку количество исходной информации уменьшится. Тогда единственно возможной оценкой для у

70