Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

.pdf
Скачиваний:
134
Добавлен:
14.03.2016
Размер:
5.88 Mб
Скачать

Определить информативность теста. Какой результат в прыжке сможет показать спортсмен, если при отталкивании разовьет усилие в 540 кг и какое усилие он должен развить, чтобы прыгнуть на 8,00 м (при р = 95%)?

Вариант 21. У конькобежцев на 500 м измерили результаты соревновательного упражнения (X, с) и статическую выносливость мышц-разгибателей бедра, измеряемую как время удержания 50% усилия до первых признаков утомления

(Y, с) [7]:

 

 

 

 

 

 

 

 

 

 

X:

41,2

40,7

42,3

41,6

41,3

40,3

40,9

42,5

42,8

42,0

Y:

18,9

22,6

16,5

19,4

24,8

23,7

27,3

15,4

19,7

18,4

Определить информативность теста.

Какой результат в тесте необходимо

показать, чтобы пробежать 500 м за 39,0 с и какой результат может показать спортсмен в беге на коньках, если в тесте будет показан результат 30 с (при

р = 95%)?

Вариант 22. У толкателей ядра измерили результаты соревновательных упражнений (X, м) и приседания со штангой на плечах (Y, кг) [7]:

X:

14,87

15,12

13,88

14,96

14,17

13,55

15,04

14,41

14,32

15,43

Y:

145

155

140

150

135

130

150

145

140

165

Определить информативность теста. Какой результат в соревновательном упражнении может показать спортсмен, если он присядет со штангой весом 190 кг и с каким весом он должен приседать, чтобы толкнуть ядро на 17,00 м (при

р = 95%)?

Вариант 23. У прыгунов в длину измерили результат соревновательного упражнения (X, м) и бега на 100 м (Y, с) [7]:

X:

7,12

7,44

7,58

7,33

7,37

7,52

7,49

7,68

7,27

7,41

Y:

11,0

10,8

10,7

10,9

10,8

10,6

10,7

10,6

11,0

10,8

Определить информативность теста. Какой результат в беге на 100 м необходимо иметь, чтобы прыгнуть на 8,00 м и какой результат в соревновательном упражнении покажет прыгун, если он пробежит 100 м за 10,5 с (при р = 95%)?

Вариант 24. У баскетболистов измерили результаты бега в защитной стойке спиной вперед на 20 м (X, с) и обычного бега на 20 м (Y, с) [7]:

X:

5,1

5,6

4,8

5,5

5,2

5,9

4,8

6,0

5,3

5,7

Y:

3,0

3,3

2,9

3,2

3,1

3,3

3,0

3,4

3,2

3,2

Определить информативность теста.

Какой результат в обычном беге на

20 м необходимо иметь, чтобы в защитной стойке пробежать 20 м за 4,5 с и какой результат в беге в защитной стойке покажет баскетболист если «гладкие» 20 м он пробежит за 2,7 с (при р = 95%)?

Вариант 25. У бегунов на 1500 м измерили результаты соревновательного упражнения (X, с) и максимального потребления кислорода (МПК) (Y, мл /кг/ мин)

[7]:

 

 

 

 

 

 

 

 

 

X:

229,3

233,4

227,5

235,6

231,8

238,2

233,9

233,7

235,0

Y:

68,3

67,4

70,1

67,8

68,9

66,3

69,3

68,2

66,1

 

 

 

 

 

101

 

 

 

Определить информативность теста. Какие МПК должен иметь бегун, чтобы пробежать 1500 м за 225 с (3 мин. 45 сек.) и какой результат в беге может быть показан, если МПК составляет 72 мл /кг/мин (при р = 95%)?

3.10. Варианты заданий для проведения множественного регрессионного анализа в пакете STATISTICA 10

Для всех вариантов заданий провести следующий анализ:

1 Проверить гипотезу о нормальности распределения переменных по критерию Колмогорова–Смирнова. В случае необходимости осуществить преобразование переменных.

2 Определить зависимость между переменными с помощью регрессионного анализа.

3 Проверить адекватность полученный моделей по F-критерию Фишера. Проверить значимость коэффициентов регрессии.

4 Построить гистограмму остатков. Проверить гипотезу о нормальности распределения остатков по критерию Колмогорова–Смирнова.

5 Выявить значимые наблюдения по расстоянию Махаланобиса

(Mahalanobis Distance) и удаленным остаткам (Deleted Residual).

102

Таблица 3.4 – Вариант 1

X1

X2

X3

X4

Y

X1

X2

X3

X4

Y

 

 

 

 

 

 

 

 

 

 

 

 

1

101

73

202

38

1712

36

105

69

270

43

1649

2

91

61

169

29

1403

37

79

54

200

35

1367

3

73

60

216

37

1256

38

105

70

185

25

1336

4

73

42

195

25

1059

39

69

63

232

32

990

5

91

75

190

31

1356

40

99

55

165

34

1668

6

81

54

250

38

1274

41

93

45

197

36

1608

7

66

54

179

27

1032

42

89

66

254

30

1074

8

87

60

232

34

1271

43

83

60

226

32

1731

9

71

49

136

21

1082

44

82

62

208

31

1196

10

87

54

167

29

1358

45

113

62

199

34

1767

11

103

41

183

34

1374

46

87

66

232

35

1405

12

75

53

221

33

1200

47

76

46

199

38

1438

13

91

75

229

38

1462

48

91

49

192

35

1614

14

82

45

231

35

1215

49

86

53

184

29

1295

15

87

66

176

30

1437

50

86

62

176

24

1198

16

94

49

200

30

1433

51

93

59

216

31

1321

17

93

55

194

29

1327

52

77

59

199

28

515

18

72

43

227

35

1120

53

108

47

167

39

1979

19

97

76

192

35

1575

54

96

57

194

32

1504

20

76

64

181

19

853

55

83

78

215

33

1290

21

72

64

211

35

1167

56

69

52

239

30

969

22

73

47

155

30

1325

57

72

59

198

26

937

23

96

59

174

31

1485

58

93

76

180

32

1453

24

99

77

193

29

1465

59

87

67

181

31

1437

25

68

70

198

33

1188

60

92

64

195

31

1441

26

80

57

137

36

1579

61

95

53

184

35

1577

27

77

55

214

30

1193

62

69

76

208

32

1032

28

92

64

192

30

1412

63

66

60

189

21

870

29

83

41

216

22

964

64

79

76

177

34

2247

30

109

64

218

41

1917

65

80

62

177

31

1372

31

75

65

183

33

1382

66

83

49

182

34

1436

32

68

52

176

31

1463

67

71

42

179

33

1337

33

89

81

221

27

1137

68

71

60

185

30

1138

34

93

65

196

24

1238

69

93

56

214

30

1473

35

90

40

158

32

1552

70

90

69

215

28

1186

103

Таблица 3.5 – Вариант 2

X1

X2

X3

X4

Y

X1

X2

X3

X4

Y

 

 

 

 

 

 

 

 

 

 

 

 

1

97

43

89

39

811

26

100

42

117

59

758

 

 

 

 

 

 

 

 

 

 

 

 

2

116

50

95

96

716

27

89

43

27

42

745

 

 

 

 

 

 

 

 

 

 

 

 

3

77

37

67

71

518

28

60

45

87

61

442

 

 

 

 

 

 

 

 

 

 

 

 

4

42

39

70

109

126

29

103

55

103

88

972

 

 

 

 

 

 

 

 

 

 

 

 

5

91

50

90

110

493

30

101

50

80

74

723

 

 

 

 

 

 

 

 

 

 

 

 

6

114

45

75

48

1064

31

93

45

77

60

692

 

 

 

 

 

 

 

 

 

 

 

 

7

153

64

95

56

1203

32

97

35

90

90

556

 

 

 

 

 

 

 

 

 

 

 

 

8

85

42

72

77

546

33

126

55

122

102

771

 

 

 

 

 

 

 

 

 

 

 

 

9

123

56

68

67

895

34

74

40

54

65

538

 

 

 

 

 

 

 

 

 

 

 

 

10

124

59

103

31

1075

35

113

44

97

69

811

 

 

 

 

 

 

 

 

 

 

 

 

11

95

37

82

73

301

36

116

48

61

101

699

 

 

 

 

 

 

 

 

 

 

 

 

12

109

41

56

11

1005

37

75

45

70

64

559

 

 

 

 

 

 

 

 

 

 

 

 

13

65

33

58

34

558

38

109

50

61

80

745

 

 

 

 

 

 

 

 

 

 

 

 

14

52

25

99

69

302

39

115

46

80

77

1178

 

 

 

 

 

 

 

 

 

 

 

 

15

114

59

59

63

872

40

89

35

79

57

627

 

 

 

 

 

 

 

 

 

 

 

 

16

78

37

81

88

409

41

111

42

96

51

863

 

 

 

 

 

 

 

 

 

 

 

 

17

94

48

103

37

804

42

102

52

69

50

822

 

 

 

 

 

 

 

 

 

 

 

 

18

96

31

59

114

416

43

69

42

61

45

583

 

 

 

 

 

 

 

 

 

 

 

 

19

84

32

53

77

529

44

102

39

105

71

689

 

 

 

 

 

 

 

 

 

 

 

 

20

126

47

91

82

850

45

64

38

70

61

443

 

 

 

 

 

 

 

 

 

 

 

 

21

116

46

111

70

553

46

122

57

88

58

913

 

 

 

 

 

 

 

 

 

 

 

 

22

91

47

65

59

684

47

106

42

61

88

689

 

 

 

 

 

 

 

 

 

 

 

 

23

108

43

82

64

764

48

77

39

31

63

547

 

 

 

 

 

 

 

 

 

 

 

 

24

108

48

107

58

812

49

93

49

85

48

756

 

 

 

 

 

 

 

 

 

 

 

 

25

103

53

86

68

757

50

86

38

63

72

553

 

 

 

 

 

 

 

 

 

 

 

 

104

Таблица 3.6 – Вариант 3

X1

X2

X3

X4

Y

 

X1

X2

X3

X4

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

1

154

171

80

178

1812

 

26

104

121

118

170

1293

 

 

 

 

 

 

 

 

 

 

 

 

 

2

136

158

73

178

1575

 

27

110

146

76

111

1286

 

 

 

 

 

 

 

 

 

 

 

 

 

3

119

173

113

173

1335

 

28

185

133

167

183

1401

 

 

 

 

 

 

 

 

 

 

 

 

 

4

139

179

106

167

1437

 

29

94

154

82

157

1541

 

 

 

 

 

 

 

 

 

 

 

 

 

5

177

190

96

103

1277

 

30

180

189

97

182

1648

 

 

 

 

 

 

 

 

 

 

 

 

 

6

157

119

75

189

1718

 

31

151

168

102

66

1263

 

 

 

 

 

 

 

 

 

 

 

 

 

7

121

168

67

151

1615

 

32

117

161

88

172

1547

 

 

 

 

 

 

 

 

 

 

 

 

 

8

84

146

67

167

1500

 

33

137

218

74

176

1587

 

 

 

 

 

 

 

 

 

 

 

 

 

9

156

183

100

184

1694

 

34

131

142

93

171

1614

 

 

 

 

 

 

 

 

 

 

 

 

 

10

130

156

115

163

1418

 

35

119

139

127

169

1433

 

 

 

 

 

 

 

 

 

 

 

 

 

11

131

122

92

139

1339

 

36

209

156

94

173

1591

 

 

 

 

 

 

 

 

 

 

 

 

 

12

144

163

134

78

974

 

37

113

133

117

176

1361

 

 

 

 

 

 

 

 

 

 

 

 

 

13

115

164

104

177

1507

 

38

120

175

88

185

1598

 

 

 

 

 

 

 

 

 

 

 

 

 

14

93

134

110

159

1304

 

39

114

142

136

176

1399

 

 

 

 

 

 

 

 

 

 

 

 

 

15

184

177

120

221

1802

 

40

172

138

107

189

1804

 

 

 

 

 

 

 

 

 

 

 

 

 

16

168

191

133

169

1451

 

41

120

145

93

172

1619

 

 

 

 

 

 

 

 

 

 

 

 

 

17

179

149

81

173

1802

 

42

149

201

67

174

1782

 

 

 

 

 

 

 

 

 

 

 

 

 

18

171

164

63

169

1662

 

43

132

130

101

167

1687

 

 

 

 

 

 

 

 

 

 

 

 

 

19

125

148

102

164

1408

 

44

144

112

117

155

1404

 

 

 

 

 

 

 

 

 

 

 

 

 

20

118

165

79

172

1611

 

45

155

193

87

168

1638

 

 

 

 

 

 

 

 

 

 

 

 

 

21

174

155

92

186

1748

 

46

184

126

81

201

1824

 

 

 

 

 

 

 

 

 

 

 

 

 

22

131

135

136

169

1490

 

47

140

175

86

188

1695

 

 

 

 

 

 

 

 

 

 

 

 

 

23

107

175

62

142

1616

 

48

142

164

131

183

1511

 

 

 

 

 

 

 

 

 

 

 

 

 

24

150

165

97

158

1455

 

49

97

166

118

155

1244

 

 

 

 

 

 

 

 

 

 

 

 

 

25

160

167

97

137

1478

 

50

161

146

63

167

1793

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

105

 

 

 

 

 

 

Таблица 3.7 – Вариант 4

X1

X2

X3

X4

Y

 

X1

X2

X3

X4

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

1

44

61

48

210

815

 

26

38

49

36

45

739

 

 

 

 

 

 

 

 

 

 

 

 

 

2

40

58

39

356

784

 

27

41

52

34

55

779

 

 

 

 

 

 

 

 

 

 

 

 

 

3

30

49

44

69

718

 

28

41

49

60

359

760

 

 

 

 

 

 

 

 

 

 

 

 

 

4

39

46

40

138

678

 

29

43

48

60

68

755

 

 

 

 

 

 

 

 

 

 

 

 

 

5

40

43

43

242

640

 

30

46

60

33

104

875

 

 

 

 

 

 

 

 

 

 

 

 

 

6

41

43

49

191

715

 

31

40

44

45

50

736

 

 

 

 

 

 

 

 

 

 

 

 

 

7

34

45

27

63

692

 

32

47

44

52

84

747

 

 

 

 

 

 

 

 

 

 

 

 

 

8

51

50

44

81

786

 

33

40

44

43

499

719

 

 

 

 

 

 

 

 

 

 

 

 

 

9

40

51

48

81

756

 

34

46

35

41

321

656

 

 

 

 

 

 

 

 

 

 

 

 

 

10

39

48

35

209

766

 

35

44

50

39

70

602

 

 

 

 

 

 

 

 

 

 

 

 

 

11

38

50

48

240

742

 

36

42

52

32

166

757

 

 

 

 

 

 

 

 

 

 

 

 

 

12

45

32

55

61

831

 

37

40

42

42

483

713

 

 

 

 

 

 

 

 

 

 

 

 

 

13

47

43

49

226

762

 

38

44

46

44

55

782

 

 

 

 

 

 

 

 

 

 

 

 

 

14

41

42

64

85

711

 

39

43

47

54

51

764

 

 

 

 

 

 

 

 

 

 

 

 

 

15

37

45

43

52

702

 

40

31

48

43

69

712

 

 

 

 

 

 

 

 

 

 

 

 

 

16

38

47

19

306

746

 

41

39

44

46

60

735

 

 

 

 

 

 

 

 

 

 

 

 

 

17

36

45

38

131

729

 

42

37

53

38

64

712

 

 

 

 

 

 

 

 

 

 

 

 

 

18

44

48

50

41

806

 

43

44

45

47

116

745

 

 

 

 

 

 

 

 

 

 

 

 

 

19

43

51

44

62

775

 

44

41

49

48

83

787

 

 

 

 

 

 

 

 

 

 

 

 

 

20

39

32

53

89

692

 

45

41

46

47

187

727

 

 

 

 

 

 

 

 

 

 

 

 

 

21

42

43

49

355

700

 

46

36

51

50

81

712

 

 

 

 

 

 

 

 

 

 

 

 

 

22

41

40

38

46

676

 

47

43

52

53

124

785

 

 

 

 

 

 

 

 

 

 

 

 

 

23

38

48

60

218

726

 

48

43

49

55

52

782

 

 

 

 

 

 

 

 

 

 

 

 

 

24

45

58

34

60

802

 

49

38

47

55

63

735

 

 

 

 

 

 

 

 

 

 

 

 

 

25

41

55

26

73

784

 

50

47

54

47

79

815

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

106

 

 

 

 

 

Таблица 3.8 – Вариант 5

X1

X2

X3

X4

Y

 

X1

X2

X3

X4

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

1

3,2

10,9

1,9

6,4

43,0

 

26

4,2

7,1

6,7

10,6

19,7

 

 

 

 

 

 

 

 

 

 

 

 

 

2

6,6

10,6

4,6

9,1

64,6

 

27

3,9

11,6

5,0

6,8

27,0

 

 

 

 

 

 

 

 

 

 

 

 

 

3

12,0

14,8

6,1

11,0

91,4

 

28

5,8

2,7

6,6

12,4

43,1

 

 

 

 

 

 

 

 

 

 

 

 

 

4

6,4

10,5

3,9

0,2

70,6

 

29

6,2

11,6

3,9

8,5

47,6

 

 

 

 

 

 

 

 

 

 

 

 

 

5

5,2

11,7

5,1

8,2

43,3

 

30

5,4

11,7

5,8

12,2

21,8

 

 

 

 

 

 

 

 

 

 

 

 

 

6

6,5

12,1

4,7

7,7

49,2

 

31

11,2

10,2

8,4

9,0

95,6

 

 

 

 

 

 

 

 

 

 

 

 

 

7

4,7

10,9

7,9

7,8

45,1

 

32

4,4

3,3

10,2

8,3

18,9

 

 

 

 

 

 

 

 

 

 

 

 

 

8

5,4

8,1

3,8

8,8

54,2

 

33

8,6

13,8

6,5

9,7

71,3

 

 

 

 

 

 

 

 

 

 

 

 

 

9

6,0

14,4

5,5

8,1

65,2

 

34

8,6

11,7

4,6

5,9

73,6

 

 

 

 

 

 

 

 

 

 

 

 

 

10

4,6

6,8

5,0

7,7

35,6

 

35

5,5

12,7

8,0

6,1

40,0

 

 

 

 

 

 

 

 

 

 

 

 

 

11

7,1

11,3

3,9

8,0

57,1

 

36

6,0

7,5

4,6

11,9

49,0

 

 

 

 

 

 

 

 

 

 

 

 

 

12

10,5

11,0

5,3

9,2

88,3

 

37

4,1

11,3

3,4

4,6

30,4

 

 

 

 

 

 

 

 

 

 

 

 

 

13

3,7

9,7

8,9

6,2

50,4

 

38

4,7

1,3

8,7

13,9

32,4

 

 

 

 

 

 

 

 

 

 

 

 

 

14

4,7

8,6

3,7

8,8

45,7

 

39

4,8

10,6

4,0

5,8

51,8

 

 

 

 

 

 

 

 

 

 

 

 

 

15

4,1

14,0

3,1

2,7

44,2

 

40

6,2

9,7

4,9

22,3

60,9

 

 

 

 

 

 

 

 

 

 

 

 

 

16

4,4

5,6

9,2

8,0

28,3

 

41

4,8

9,1

2,9

10,3

42,5

 

 

 

 

 

 

 

 

 

 

 

 

 

17

8,9

9,4

7,2

8,3

84,5

 

42

6,2

16,4

2,8

9,7

54,7

 

 

 

 

 

 

 

 

 

 

 

 

 

18

6,5

9,8

4,0

7,3

59,8

 

43

7,1

8,2

6,1

23,6

39,2

 

 

 

 

 

 

 

 

 

 

 

 

 

19

6,6

10,8

5,6

4,5

58,9

 

44

6,0

6,4

9,6

21,2

36,5

 

 

 

 

 

 

 

 

 

 

 

 

 

20

8,9

14,8

6,5

6,4

48,2

 

45

6,8

12,7

3,2

7,1

73,5

 

 

 

 

 

 

 

 

 

 

 

 

 

21

3,6

9,2

3,7

8,5

42,8

 

46

5,5

10,0

3,8

8,2

44,6

 

 

 

 

 

 

 

 

 

 

 

 

 

22

7,8

11,5

4,9

6,6

50,1

 

47

5,5

2,2

7,7

10,5

50,5

 

 

 

 

 

 

 

 

 

 

 

 

 

23

6,4

11,4

4,1

8,9

51,9

 

48

4,9

9,8

7,5

10,6

35,3

 

 

 

 

 

 

 

 

 

 

 

 

 

24

7,4

8,4

7,0

9,4

50,7

 

49

5,8

12,0

7,1

10,8

42,3

 

 

 

 

 

 

 

 

 

 

 

 

 

25

5,8

7,1

5,0

8,2

59,2

 

50

3,8

7,6

8,4

9,8

29,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

107

 

 

 

 

 

 

4 ДИСКРИМАНАНТНЫЙ АНАЛИЗ ДАННЫХ

4.1 Постановка задачи дискриминантного анализа

Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, параметров) объекта классифицировать его, то есть отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации [11].

Дискриминантный анализ является одним из методов многомерного статистического анализа, поскольку измеряется несколько параметров объекта, например, давление, состав крови, температура и так далее. Так, в спортивной медицине объектом исследования является спортсмен, когда по результатам измерений различных параметров, проведения диагностических тестов врач определяет степень подготовки спортсмена к участию в соревнованиях.

Математическая постановка задачи. Предположим, имеется n объектов с m

характеристиками. В результате измерений каждый объект характеризуется вектором х1, ... хm, m > 1. Задача состоит в том, чтобы по результатам измерений отнести объект к одной из нескольких групп (классов) G1,..., Gk, k ≥ 2. Иными словами, нужно построить решающее правило, позволяющее по результатам измерений параметров объекта указать группу, к которой он принадлежит. Число групп заранее известно, также известно, что объект заведомо принадлежит к определенной группе [1].

Пусть X – пространство значений вектора измерений. Решающее правило называется нерандомизированным, если пространство X разбито на k непересекающихся областей; при попадании измерения параметров объекта в k-ю область объект относится к k-й группе. Решающее правило называется рандомизированным, если для каждого вектора наблюдений х задана вероятность pi(x), с которой объект принадлежит i-й группе, pi(x) ≥ 0, p1(x) + ... + pk(x) = 1, i = 1, ..., k.

Очевидно, при использовании решающего правила возникают потери, вызванные тем, что объект неправильно классифицирован – отнесен к классу i, когда в действительности он принадлежит классу j (i j).

Если можно измерить убыток r(i, j) при неправильной классификации объекта, то вводят средние потери, к которым приводит применение данного правила, и пытаются найти правило, минимизирующее эти средние потери.

Если значение потерь трудно оценить численно, то при построении оптимального правила используют критерий минимальной вероятности ложной классификации.

В дискриминантном анализе можно задать априорные вероятности принадлежности объекта к определенному классу. На практике эти вероятности оцениваются из массива экспериментальных данных [1].

108

Дискриминантный анализ «работает» при выполнении следующих

предположений и ограничений [1]:

1 Нормальное распределение. Предполагается, что анализируемые переменные – измеряемые характеристики объекта – представляют выборку из многомерного нормального распределения.

2 Однородность дисперсий и ковариаций. Предполагается, что дисперсии и ковариации наблюдаемых переменных в разных классах однородны.

Умеренные отклонения от данных предположений допустимы.

4.2 Алгоритм проверки возможности проведения дискриминантного анализа

В литературе [3] приводится следующий алгоритм проверки возможности проведения дискриминантного анализа:

1 Проверить, создана ли выборка в интервальных шкалах или шкалах отношений, имеют ли признаки нормальное распределение.

2 Проверить, разделена ли выборка на конечное число (не менее двух) непересекающихся классов, известна ли для каждого объекта вероятность принадлежности к какому-то классу.

3 Проверить отсутствие корреляции между переменными с помощью корреляционной матрицы. При наличии зависимости между средними по совокупностям дисперсиями или стандартными отклонениями (мультиколлинеарности) не существует однозначной меры относительной важности переменных.

4 В каждом классе должно быть не менее двух объектов из обучающей выборки, а число дискриминантных переменных не должно превосходить объем обучающей выборки за вычетом двух объектов.

4.3 Основные методы проведения дискриминантного анализа

Основные методы проведения дискриминантного анализа, реализованные в большинстве статистических пакетов следующие [3]:

1)линейный дискриминантный анализ Фишера;

2)канонический дискриминантный анализ (максимального правдоподобия, или вероятностный);

3)методы, связанные с расстояниями;

4)пошаговый дискриминантный анализ.

Линейный

дискриминантный анализ Фишера

[3]. Метод

предложен

Р. Фишером,

и соответствующие функции

называются

линейными

классификационными функциями (ЛКФ) Фишера. Строятся k линейных функций

109

где Dmk

классификации, предназначенных для определения того, к какой группе наиболее вероятно может быть отнесен каждый объект. Количество функций классификации равно количеству классов или групп. Для каждого объекта и для каждой совокупности вычисляются значения ЛФК по следующей формуле (44):

dmk = аk + bk1x1k + b2x2k + ... + bnxnk, (44)

или dmk = ak + bki xmi ,

m = 1, ..., n; k = l, ..., g,

где k – обозначает соответствующую группу; g – количество групп; m – номер объекта; bki – коэффициенты, которые называют весами для i-й переменной при вычислении показателя классификации для k-й совокупности; dmk – значение ЛКФ для m-то объекта в группе k (показатель классификации); ak – свободный член уравнения; xmj – наблюдаемое значение i-й переменной для соответствующего m-то объекта в группе k.

Наблюдение приписывают к той группе, для которой классификационная функция имеет максимальное значение.

Канонический дискриминантный метод относит объект к классу k, если соответствующая апостериорная вероятность этой принадлежности максимальна. Применяемые в этом методе линейные дискриминантные функции часто называют каноническими (КЛДФ). Данный анализ проводится по схеме, обратной первому виду анализа. Здесь разделение объектов ведется по минимальным значениям дискриминирующей функции. Объект относится к определенному классу только тогда, когда Евклидово расстояние от центра кластера до оцениваемого показателя минимально [3].

Каноническая линейная дискриминантная функция имеет следующий вид (45):

Dmk = ak+ b1x1 + b2x2 + … + bnxn, m = 1, ..., n; k = 1, …, g, (45)

– значение канонической дискриминантной функции для m-го объекта в группе k; ak – свободный член уравнения; xmi – наблюдаемое значение i-й переменной для соответствующего m-го объекта в группе k; g – количество групп; bki – коэффициенты, которые оценивают с помощью дискриминантного анализа.

После того, как проведена оценка статистической значимости каждой канонической дискриминантной функции и определено, какие из них вносят наибольший вклад в дискриминацию, рассчитывают значения этих функций для каждого объекта (наблюдения). Наименьшее из значений применяют для классификации. Его сравнивают со средними значениями расстояний до центроидов каждой группы. Объект принадлежит к той группе, расстояние до которой наилучшим образом совпадает с рассчитанным значением КЛДФ [3].

В случае применения по умолчанию методов максимального правдаподобия используют два набора оценок [3]:

1 Априорные вероятности принадлежности к классу можно рассматривать как решающее правило, применяемое в том случае, когда нет никакой

110