01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ
.pdfВариант 2. Имеются результаты измерения спортивных показателей X1, X2, X3 мужчин-спортсменов в количестве 48 человек (таблица 2.7).
Таблица 2.7 – Вариант 2
№ X1 |
X2 |
X3 |
№ X1 |
X2 |
X3 |
||
1 |
171,9 |
4255 |
1,52 |
25 |
152,5 |
5134 |
4,86 |
2 |
192,7 |
4244 |
2,62 |
26 |
166,24 |
4173 |
5,02 |
3 |
112,1 |
3951 |
2,74 |
27 |
185,8 |
5297 |
5,02 |
4 |
159,7 |
4200 |
2,89 |
28 |
117,09 |
4023 |
5,15 |
5 |
110,8 |
3878 |
3,14 |
29 |
124,84 |
4146 |
5,6 |
6 |
117,3 |
4026 |
3,14 |
30 |
153,34 |
4998 |
5,78 |
7 |
174,0 |
4244 |
3,23 |
31 |
151,09 |
5165 |
5,81 |
8 |
118,8 |
4026 |
3,33 |
32 |
194,92 |
5554 |
5,82 |
9 |
151,9 |
4140 |
3,41 |
33 |
175,81 |
5446 |
5,91 |
10 |
127,8 |
3872 |
3,48 |
34 |
152,94 |
5271 |
5,94 |
11 |
110,4 |
3989 |
3,65 |
35 |
136,07 |
5174 |
5,95 |
12 |
179,8 |
4165 |
3,71 |
36 |
193,53 |
5419 |
5,99 |
13 |
133,3 |
3995 |
3,8 |
37 |
165,37 |
5448 |
6,37 |
14 |
137,0 |
4000 |
3,81 |
38 |
196,5 |
5604 |
6,79 |
15 |
166,3 |
4244 |
3,86 |
39 |
160,99 |
5378 |
6,8 |
16 |
168,5 |
4335 |
3,95 |
40 |
187,74 |
5673 |
6,84 |
17 |
107,8 |
4202 |
3,99 |
41 |
142,21 |
4892 |
7,19 |
18 |
182,9 |
4160 |
4,04 |
42 |
157,07 |
5103 |
7,2 |
19 |
161,7 |
4238 |
4,09 |
43 |
150,08 |
5005 |
7,37 |
20 |
160,8 |
4183 |
4,11 |
44 |
143,53 |
5041 |
7,41 |
21 |
116,3 |
4098 |
4,16 |
45 |
191,75 |
5594 |
8,18 |
22 |
122,9 |
3956 |
4,2 |
46 |
192,68 |
5455 |
8,23 |
23 |
102,9 |
3973 |
4,29 |
47 |
145,32 |
5320 |
8,48 |
24 |
110,6 |
3917 |
4,66 |
48 |
191,8 |
5590 |
8,59 |
|
|
|
|
61 |
|
|
|
Вариант 3. Имеются результаты измерения спортивных показателей X1, X2, X3, X4 женщин-спортсменок в количестве 40 человек (таблица 2.8).
Таблица 2.8 – Вариант 3
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
№ |
|
X1 |
|
X2 |
|
X3 |
|
X4 |
|
№ |
|
X1 |
|
X2 |
|
X3 |
|
|
X4 |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
4,78 |
|
142,4 |
|
1653 |
|
2821 |
|
21 |
5,96 |
|
182,4 |
|
|
1353 |
|
|
|
3057 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
7,04 |
|
196,3 |
|
1471 |
|
1566 |
|
22 |
5,73 |
|
143,6 |
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
1691,2 |
|
|
|
3516 |
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
3 |
|
6,56 |
|
194,4 |
|
1419 |
|
1413 |
|
23 |
11,48 |
|
205,2 |
|
|
1722,4 |
|
|
|
5231 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
4 |
|
6,64 |
|
199,7 |
|
1347 |
|
2964 |
|
24 |
14,08 |
|
|
201,4 |
|
|
1777,2 |
|
|
5515 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
|
9,25 |
|
222,8 |
|
1748 |
|
5546 |
|
25 |
|
5,79 |
|
|
141,0 |
|
|
1692,7 |
|
|
4194 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
|
10,57 |
|
209,4 |
|
1730 |
|
5505 |
|
|
26 |
|
|
5,98 |
|
|
204,4 |
|
|
1494,7 |
|
|
1685 |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
7 |
|
5,1 |
|
152,0 |
|
1593 |
|
3882 |
|
|
27 |
|
|
5,87 |
|
|
192,3 |
|
1506,3 |
|
|
2867 |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8 |
|
5,65 |
|
135,4 |
|
1618 |
|
|
4000 |
|
|
28 |
|
|
5,37 |
|
139,2 |
|
1654,3 |
|
|
3723 |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
|
11,37 |
|
216,2 |
|
|
1775 |
|
|
5695 |
|
|
29 |
|
10 |
|
219,3 |
|
1713,5 |
|
|
6523 |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
10 |
6,38 |
|
185,4 |
|
|
1482 |
|
|
2657 |
|
|
30 |
|
9,29 |
|
221,0 |
|
1782,3 |
|
|
5662 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
11 |
7,14 |
|
192,9 |
|
|
|
|
|
31 |
10,84 |
|
211,1 |
|
1739,4 |
|
|
5155 |
|
|
|||||||||||
|
|
|
1467 |
|
|
1854 |
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
12 |
6,81 |
|
|
187,3 |
|
|
|
|
|
32 |
6,62 |
|
201,0 |
|
1537,4 |
|
|
2893 |
|
|
||||||||||
|
|
|
|
1487 |
|
|
4082 |
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
13 |
7,07 |
|
|
191,0 |
|
|
1388 |
|
3216 |
|
33 |
11,16 |
|
209,2 |
|
1755,2 |
|
|
4766 |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
14 |
|
9,08 |
|
|
|
|
|
5762 |
|
34 |
5,85 |
|
157,4 |
|
1695 |
|
|
2967 |
|
|
||||||||||
|
|
|
206,4 |
|
|
1767 |
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
15 |
|
|
6,63 |
|
|
190,0 |
|
1375 |
|
4535 |
|
35 |
6,76 |
|
187,4 |
|
1389,4 |
|
|
2272 |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
16 |
|
|
11,65 |
|
219,0 |
|
1757 |
|
5195 |
|
36 |
6,43 |
|
199,3 |
|
1425,4 |
|
|
2055 |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
17 |
|
|
5,95 |
|
148,1 |
|
1635 |
|
3537 |
|
37 |
12,9 |
|
208,9 |
|
1833,4 |
|
|
6252 |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
18 |
5,42 |
|
172,2 |
|
1668 |
|
3207 |
|
38 |
9,88 |
|
206,2 |
|
1813,2 |
|
|
5855 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
19 |
11,11 |
|
205,4 |
|
1763 |
|
6142 |
|
39 |
13,2 |
|
215,2 |
|
1727,3 |
|
|
5504 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
20 |
10,58 |
|
216,0 |
|
1741 |
|
5537 |
|
40 |
5,42 |
|
147,0 |
|
1696,9 |
|
|
3842 |
|
|
Вариант 4. Имеются результаты измерения спортивных показателей X1, X2, 62
X3 мужчин-спортсменов в количестве 40 человек (таблица 2.9).
Таблица 2.9 – Вариант 4
№ |
|
X1 |
|
X2 |
|
X3 |
|
№ |
|
X1 |
|
X2 |
|
X3 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
50,79 |
|
91,63 |
|
4989 |
|
21 |
|
31,69 |
|
83,89 |
|
3961 |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
33,52 |
|
95,43 |
|
3571 |
|
22 |
|
36,68 |
|
96,02 |
|
|
3519 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
35,14 |
|
97,85 |
|
4172 |
|
23 |
|
40 |
|
103,73 |
|
|
4803 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
50,92 |
|
136,09 |
2389 |
|
24 |
|
80,41 |
|
|
114,89 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
2063 |
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
|
40,91 |
|
91,53 |
|
4388 |
|
25 |
|
36,35 |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
89,94 |
|
|
3659 |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
6 |
|
28,55 |
|
89,23 |
|
3416 |
|
26 |
|
|
46,45 |
|
|
104,11 |
|
|
3994 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
7 |
|
40,11 |
|
88,61 |
|
4659 |
|
27 |
|
|
|
|
|
|
|
4574 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
27,4 |
|
|
91,51 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
8 |
|
62,17 |
|
128,32 |
2665 |
|
|
28 |
|
|
78,07 |
|
144,64 |
|
2635 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
9 |
|
38,1 |
|
85,98 |
|
|
3410 |
|
|
|
|
|
98,87 |
|
4529 |
|
||||||
|
|
|
|
|
|
29 |
|
|
41,85 |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
10 |
35,42 |
|
|
86,24 |
|
|
|
|
|
33,34 |
|
89,87 |
|
3226 |
|
|||||||
|
|
|
|
3769 |
|
|
30 |
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
11 |
32,76 |
|
|
|
|
|
31 |
|
62,91 |
|
131,84 |
|
2745 |
|
||||||||
|
|
96,06 |
|
|
4206 |
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
12 |
|
57,81 |
|
|
113,19 |
|
|
2660 |
|
32 |
|
27,14 |
|
79,82 |
|
4078 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
13 |
|
|
|
|
|
|
|
|
|
33 |
|
25,5 |
|
105,48 |
|
5259 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
78,43 |
|
|
107,8 |
|
|
2311 |
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14 |
|
|
79,89 |
|
|
139,5 |
|
2885 |
|
34 |
|
37,24 |
|
92,11 |
|
4480 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
15 |
|
|
33,31 |
|
|
90,3 |
|
4109 |
|
35 |
|
39,9 |
|
92,04 |
|
4700 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
16 |
|
|
55,05 |
|
119,09 |
2438 |
|
36 |
|
65,99 |
|
126,78 |
|
2100 |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
17 |
|
77,52 |
|
117,78 |
2166 |
|
37 |
|
33,56 |
|
86,86 |
|
2986 |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
18 |
19,57 |
|
99,21 |
|
4938 |
|
38 |
|
65,77 |
|
118,07 |
|
2537 |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
19 |
39,49 |
|
111,43 |
4491 |
|
39 |
|
53,69 |
|
126,32 |
|
2580 |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
20 |
32,51 |
|
88,74 |
|
4950 |
|
40 |
|
73,35 |
|
128,78 |
|
2442 |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вариант 5. Имеются результаты измерения спортивных показателей X1, X2, 63
X3, X4 мужчин-спортсменов в количестве 45 человек (таблица 2.10).
Таблица 2.10 – Вариант 5
№ X1 |
X2 |
X3 |
X4 |
№ X1 |
X2 |
X3 |
X4 |
||
1 |
3,84 |
40,19 |
155,6 |
7791 |
24 |
6,21 |
63,18 |
820,2 |
3575 |
2 |
3,40 |
48,67 |
150,9 |
5581 |
25 |
4,25 |
41,63 |
173,9 |
5515 |
3 |
3,76 |
41,66 |
147,3 |
5836 |
26 |
6,49 |
54,41 |
800,4 |
3495 |
4 |
5,92 |
61,66 |
814,3 |
3462 |
27 |
6,26 |
61,06 |
826,9 |
3512 |
5 |
6,20 |
68,74 |
801,2 |
3496 |
28 |
2,80 |
36,91 |
149,3 |
5154 |
6 |
6,31 |
65,77 |
760,2 |
3496 |
29 |
4,86 |
39,85 |
439,0 |
3033 |
7 |
4,14 |
37,49 |
148,9 |
4810 |
30 |
3,69 |
39,6 |
148,7 |
3485 |
8 |
3,28 |
44,65 |
439,1 |
3022 |
31 |
4,99 |
42,98 |
481,7 |
3000 |
9 |
4,64 |
46,97 |
321,3 |
3028 |
32 |
3,43 |
40,53 |
145,6 |
5328 |
10 |
4,73 |
44,23 |
476,6 |
2915 |
33 |
4,77 |
45,41 |
451,1 |
3009 |
11 |
6,53 |
61,53 |
780,5 |
3505 |
34 |
6,00 |
65,85 |
800,2 |
3497 |
12 |
5,81 |
65,38 |
774,2 |
3466 |
35 |
3,99 |
45,59 |
307,1 |
2961 |
13 |
3,78 |
43,85 |
401,3 |
2983 |
36 |
3,39 |
44,71 |
426,3 |
3006 |
14 |
3,46 |
35,54 |
165,8 |
5571 |
37 |
3,92 |
36,71 |
165,9 |
7836 |
15 |
3,82 |
44,87 |
417,7 |
2957 |
38 |
4,13 |
38,68 |
160,2 |
6746 |
16 |
5,81 |
60,12 |
813,1 |
3503 |
39 |
6,16 |
58,58 |
812,0 |
3541 |
17 |
3,91 |
38,96 |
153,7 |
5136 |
40 |
5,83 |
58,41 |
819,5 |
3516 |
18 |
3,94 |
41,24 |
264,6 |
2979 |
41 |
3,77 |
44,64 |
163,1 |
7922 |
19 |
6,08 |
60,17 |
742,0 |
3549 |
42 |
3,32 |
39,39 |
150,1 |
3958 |
20 |
6,08 |
66,81 |
814,9 |
3528 |
43 |
4,01 |
43,98 |
524,9 |
3079 |
21 |
5,78 |
58,1 |
758,8 |
3505 |
44 |
4,87 |
41,29 |
351,0 |
3037 |
22 |
3,50 |
49,98 |
393,1 |
3065 |
45 |
3,90 |
43,57 |
153,4 |
9017 |
23 |
4,03 |
48,52 |
342,1 |
2967 |
|
|
|
|
|
|
|
3 РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ |
|
||||||
|
|
|
|
|
64 |
|
|
|
|
3.1 Постановка задачи регрессионного анализа
Существует большой класс задач, для которых требуется установить зависимость между признаками (атрибутами, показателями), которые описывают исследуемый процесс или объект предметной области. Для этого строятся различные модели, в которых данные признаки выступают в качестве переменных. Если модель будет корректно отражать зависимость между входными и выходными переменными, то с помощью такой модели можно будет предсказывать значения выходной переменной по заданным значениям входных [8].
Как правило, реальные процессы в спортивной медицине и спорте достаточно сложны, и для их описания требуется большое количество переменных, которое может насчитывать и несколько десятков в зависимости от сложности объекта исследования.
Рассмотрим простой пример. В таблице 3.1 представлены лучшие результаты в беге на 100 м и по прыжкам в длину спортсменов различной квалификации. Выявим зависимость в данных с помощью линейной регрессии.
Таблица 3.1 –Результаты спортсменов различной квалификации
Бег на 100 м, с |
10,00 |
10,20 |
10,30 |
10,40 |
10,60 |
10,70 |
10,80 |
|
|
|
|
|
|
|
|
Прыжки в длину, м |
8,80 |
8,65 |
8,70 |
8,00 |
7,70 |
7,20 |
6,95 |
|
|
|
|
|
|
|
|
Бег на 100 м, с |
11,00 |
11,30 |
11,50 |
11,90 |
12,00 |
12,20 |
12,30 |
|
|
|
|
|
|
|
|
Прыжки в длину, м |
6,70 |
6,90 |
6,60 |
6,55 |
6,40 |
6,10 |
6,20 |
|
|
|
|
|
|
|
|
Цель анализа – оценка ожидаемых результатов прыжка в длину, м, в зависимости от времени бега, с, на дистанции 100 м.
Если предположить, что зависимость между переменными линейная, то для построения модели достаточно провести прямую линию, проходящую через «облако» точек, соответствующих наблюдениям (рисунок 3.1). Тогда наклон линии покажет, насколько уменьшится результат при увеличении времени.
Если мы хотим смоделировать зависимость прыжка в длину в метрах от времени бега на дистанцию 100 метров, то нужно построить прямую, каждая точка которой будет представлять собой оценку прыжка в длину для заданного времени бега. Однако таких линий можно построить бесконечно много, и только одна из них обеспечит оптимальную оценку прыжка в длину. Естественным было бы провести линию таким образом, чтобы рассеяние вдоль нее точек, соответствующих реальным наблюдениям, было минимальным.
65
Рисунок 3.1
На практике линию строят так, чтобы сумма квадратов отклонений наблюдаемых значений от оцененных с помощью данной линейной зависимости была минимальной, то есть (22):
n |
|
|
22 |
ˆ |
2 |
min, |
|
( yi |
yi ) |
i 1
где n – число наблюдений; yˆi – оценка выходного значения i-го наблюдения,
полученная с помощью модели; yi – реально наблюдаемое значение в i-м наблюдении [8].
Данный метод известен как метод наименьших квадратов (МНК), а линия построенная с его помощью, называется линией регрессии.
Линия регрессии – это прямая наилучшего приближения для набора пар значений входной и выходной переменной (х, у), выбираемая таким образом, чтобы сумма квадратов расстояний от точек (хi, yi) до этой прямой, измеренных вертикально (то есть вдоль оси у), была минимальна.
66
Уравнение, описывающее линию регрессии, называется уравнением
регрессии (23): |
|
yˆ = b0+b1x, |
(23) |
где yˆ – оценка значения выходной переменной; b0 – точка пересечения линии с осью у, называемая также свободным членом. Это значение, которое принимает выходная переменная yˆ при х = 0. Коэффициент b1 определяет наклон линии
относительно оси х.
Коэффициенты линейного уравнения b0 и b1 называются коэффициентами регрессии.
Таким образом, задача построения модели простой линейной регрессии сводится к нахождению таких коэффициентов b0 и b1 для которых сумма квадратов ошибок, то есть разностей между реально наблюдаемыми значениями выходной
переменной yi, и их оценками |
ˆ |
была бы минимальна. Уравнение регрессии с учетом |
|
yi |
|||
ошибки между наблюдаемым и оцененным значениями будет следующее (24): |
(24) |
||
|
|
yi = b0 +b1х + ε, |
|
|
|
ˆ |
|
где ε – ошибка.
Тогда сумму квадратов ошибок по всем наблюдениям можно вычислить следующим образом (25):
n |
|
n |
n |
|
E ε2 ( yˆi yi )2 |
(yi b0 b1x)2. |
(25) |
||
i |
1 |
i 1 |
i 1 |
|
Мы можем найти значения b0 и которые минимизируют путем дифференцирования уравнения (23) по b0 и b1. Частные производные для уравнения (25) по b0 и b1 соответственно будут (26):
E |
n |
|
E |
n |
|
|
2 (yˆi |
b0 b1x); |
2 xi (yˆi b0 b1x). |
(26) |
|||
b0 |
b1 |
|||||
i 1 |
|
i 1 |
|
Как известно, в точке, где функция минимальна, ее производная обращается в ноль. Поэтому нас интересуют значения b0 и b1 которые обращают (25) в ноль, то есть (27):
n |
n |
|
27 |
ˆ |
ˆ |
b0 b1x) 0. |
|
(yi |
b0 b1x) 0; xi (yi |
||
i 1 |
i 1 |
|
|
Опустив некоторые промежуточные выкладки, сразу запишем результат (28):
|
n |
|
|
n |
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
xi yi |
xi |
yi |
n |
|
|
1 |
n |
|
b1 |
n |
|
|||||||
b1 |
i 1 |
|
i 1 |
|
i 1 |
|
|
|
; b0 |
|
yi |
|
xi yср b1xср , |
(28) |
|||||
|
|
|
|
|
2 |
|
|
|
|
||||||||||
|
n |
2 |
|
|
n |
|
|
|
|
|
|
n i 1 |
|
n i 1 |
|
||||
|
|
xi |
|
|
xi |
|
n |
|
|
|
|
|
|
|
|
|
|||
|
|
i 1 |
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
где n – общее число наблюдений; yср – среднее значение выходной переменной; хср – среднее значение входной переменной [8].
67
Уравнения (28) – это полученные методом МНК для значений b0 и b1 оценки, которые минимизируют сумму квадратов ошибок.
Разности между наблюдаемыми значениями выходной переменной и значениями, оцененными с помощью регрессии, называются остатками. Справедливо:
наблюдение = оценка + остаток.
Используя МНК, вычислим оценки коэффициентов регрессии для данных из таблицы 3.1: b1 = 19,63; b0 = –1,12.
Уравнение регрессии будет иметь следующий вид: yˆi = 19,63 – 1,12x.
Смысл коэффициентов уравнения регрессии следующий: b0 – это значение выходной переменной у при значении входной переменной х = 0. Значит, если бы спортсмен пробежал дистанцию 100 метров за 0 секунд, то оценка его прыжка в длину составила бы 19,63 метра. Однако данная формальная интерпретация явно противоречит здравому смыслу, поскольку спортсмен не может бежать бесконечно быстро. Отсюда вытекает одно из ограничений линейной регрессии: линию регрессии следует считать подходящей аппроксимацией некоторой реальной функции только в том диапазоне изменений входной переменной х, в котором распределены исходные наблюдения. В противном случае результаты могут оказаться непредсказуемым [8].
Значение коэффициента наклона линии регрессии b1 можно интерпретировать как среднюю величину изменения значения выходной переменной при изменении значения входной переменной на единицу. В нашем примере это означает, что при увеличении результата в беге на одну секунду можно ожидать увеличения расстояния прыжка в среднем на 1,12 метра.
Линия регрессии для найденного нами уравнения представлена на рисунке 3.1. Для линии регрессии сумма квадратов вертикальных расстояний между точками данных и линией должна быть меньше, чем аналогичная сумма квадратов для любой другой прямой.
3.2 Линейная регрессионная модель
Простая линейная регрессионная модель задается следующим образом [8]. Пусть имеется выборка данных, содержащая n наблюдений, в каждом из которых значению независимой переменной хi соответствует значение зависимой переменной yi связанных с помощью линейной зависимости:
у = b0 + b1 x + ε,
где b0 и b1 – параметры модели, определяющие точку пересечения линии регрессии с осью у и наклон линии регрессии соответственно; ε – остатки, определяющие ошибку отклонения реального наблюдения от оценки, полученной с помощью данной модели.
68
В общем случае линейные регрессионные модели с несколькими независи-
мыми переменными будут иметь следующий вид (29): |
|
у = b0 + b1 x1 + b2 x2 + … + bk xk + ε, |
(29) |
где b0, b1, b2 , …, bk – параметры модели. |
|
Предположения об остатках ε следующие: |
|
1)остатки ε является случайной величиной с нулевым средним значением;
2)дисперсия остатков ε является постоянной величиной;
3)отдельные значения остатков ε являются независимыми;
4)остатки ε является нормально распределенной случайной переменной.
3.3 Оценка соответствия простой линейной регрессии реальным данным
Линия регрессии должна аппроксимировать линейные отношения между входной и выходной переменными модели. Однако при этом возникает вопрос, насколько линейная аппроксимация соответствует наблюдаемым данным. Чтобы определить это, введем в рассмотрение два показателя – стандартную ошибку
ˆ |
и коэффициент детерминации R |
2 |
[8]. |
оценивания Ест |
|
В статистике мерой разброса случайной величины относительно среднего значения является стандартное отклонение. Аналогично в качестве меры разброса точек наблюдений относительно линии регрессии можно использовать стандартную ошибку оценивания, которая показывает среднюю величину отклонения точек исходных данных от линии регрессии вдоль оси у. Стандартная ошибка равна корню квадратному среднеквадратической ошибки (СКО) [8], которая определяется как сумма квадратов разностей между реальным и оцененным значениями, вычисленной по всем наблюдениям и отнесенной к их числу (30):
СКО |
1 |
n |
2 |
|
30 |
|
ˆ |
. |
|||
|
|
||||
|
( yi yi ) |
||||
|
n i 1 |
|
|
|
СКО можно рассматривать как меру изменчивости выходной переменной, объясняемую регрессией. Тогда стандартная ошибка оценивания определяется следующим образом (31):
|
|
|
|
|
1 |
n |
|
2 |
|
|
|
|
|
|
|
|
|
|
|||
ˆ |
= |
СКО |
|
( yi |
ˆ |
. |
31 |
|||
|
|
|||||||||
Eст |
|
yi ) |
|
|||||||
|
|
|
|
|
n i 1 |
|
|
|
|
|
Значение стандартной |
|
ошибки |
|
ˆ |
позволяет оценить |
степень |
||||
|
|
Ест |
рассогласования оценок, полученных с помощью регрессии, и реальных наблюдений аналогично тому, как стандартное отклонение позволяет оценить в статистическом анализе степень разброса случайной величины относительно среднего. Чем меньше стандартная ошибка оценивания, тем лучше работает модель.
69
Рассмотрим пример из литературы [8]. Имеется выборка, в которой представлены данные, описывающие результаты соревнований по спортивному ориентированию: расстояние в километрах, пройденное десятью участниками за определенное время, выраженное в часах. На основе наблюдений за участниками соревнований было получено уравнение регрессии у = 6 + 2х. Пройденное расстояние определяется как 6 км плюс удвоенное количество часов, затраченных на движение. Уравнение позволяет оценить расстояние, пройденное за произвольное количество часов. Полученные оценки представлены в таблице 3.2.
Таблица 3.2 – Расчет СКО для примера о спортивном соревновании
№ участ- |
Время, |
Расстояние, |
Оцененное |
Ошибка оцени- |
(у– yˆ )2 |
|
ника |
|
х, ч |
у, км |
расстояние, у= 6 + 2х |
вания, у– yˆ |
|
|
|
|||||
|
|
|
|
|
|
|
1 |
|
2 |
10 |
10 |
0 |
0 |
2 |
|
2 |
11 |
10 |
1 |
1 |
3 |
|
3 |
12 |
12 |
0 |
0 |
4 |
|
4 |
13 |
14 |
-1 |
1 |
5 |
|
4 |
14 |
14 |
0 |
0 |
6 |
|
5 |
15 |
16 |
-1 |
1 |
7 |
|
6 |
20 |
18 |
2 |
4 |
8 |
|
7 |
18 |
20 |
-2 |
4 |
9 |
|
8 |
22 |
22 |
0 |
0 |
10 |
|
9 |
25 |
24 |
1 |
1 |
( y yˆ)2 |
|
|
|
|
12 |
Из |
таблицы 3.2 видно, что сумма квадратов ошибок оценивания |
( y yˆ)2 |
12.Эта величина представляет собой общую меру ошибки оценива- |
ния значения выходной переменной с помощью данного уравнения регрессии. Если она велика, то модель работает неудовлетворительно. Является ли значение, равное 12, большим? Достоверно сказать нельзя, поскольку на данном этапе мы не имеем других мер для сравнения.
Стандартная ошибка будет ˆ =1,1. Следовательно, при оценке
Ест 12 10
пути, пройденного участником соревнований, с помощью уравнения yˆ = 6 + 2х
ожидаемая ошибка равна 1,1 км.
Теперь предположим, что информация о количестве часов, которое каждый участник соревнований провел в пути, отсутствует, то есть использовать переменную х для оценивания переменной у невозможно. Полученные в этом случае оценки пройденного расстояния окажутся менее точными, поскольку количество исходной информации уменьшится. Тогда единственно возможной оценкой для у
70