Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

.pdf
Скачиваний:
134
Добавлен:
14.03.2016
Размер:
5.88 Mб
Скачать

дополнительной информации об объектах. Их вычисляют либо по числу объектов каждого класса, либо считают равными друг другу.

2 Условные вероятности принадлежности к классу равны вероятности получить соответствующее значение дискриминантной функции при условии, что объект принадлежит к данному классу. Используется предположение о том, что значения дискриминантных функций распределены нормально.

Эти оценки позволяют применить формулу Байеса для вычисления апостериорных вероятностей принадлежности к классам. Именно эти вероятности и используют в решающем правиле: объект относится к тому классу, для которого эта вероятность максимальна. В соответствии с правилом Байеса, вероятность того, что наблюдение с дискриминантным индикатором D принадлежит к группе Gi оценивается соотношением (46)

P(Gi / D)

P(D / Gi )P(Gi )

,

46

g

 

P(D / Gi )P(Gi )

 

 

i 1

где P(Gj) – априорная вероятность принадлежности наблюдения к группе Gj, представляющая оценку вероятности при условии, что отсутствует какая-либо информация об объектах Gi-го класса.

Методы, связанные с расстояниями, рассматривают объекты как точки в Евклидовом пространстве. В качестве меры сходства между объектами при классификации можно использовать, например, Евклидово расстояние между объектами. Чем меньше расстояние между объектами, тем больше сходство. Однако в тех случаях, когда переменные коррелированы, измерены в разных единицах и имеют различные стандартные отклонерия, трудно четко определить понятие «расстояния». В этом случае полезнее применить не Евклидово расстояние, а выборочное расстояние Махаланобиса [3].

Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными. Если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным Евклидовым расстоянием.

Для каждой совокупности в выборке можно определить положение точки, представляющей средние для всех переменных в многомерном пространстве, определенном переменными рассматриваемой модели. Эти точки называются центроидами группы. Для каждого наблюдения можно вычислить его расстояние Махаланобиса от каждого центроида группы. Мы признаем наблюдение принадлежащим к той группе, к которой он ближе, то есть когда расстояние Махаланобиса до нее минимально.

Апостериорные вероятности классификации. Используя для классификации расстояние Махаланобиса, можно получить вероятность того, что образец принадлежит к конкретной совокупности. Это значение будет не вполне точным,

111

так как распределение вокруг среднего для каждой совокупности будет не в точности нормальным. Поскольку принадлежность каждого образца вычисляется по априорному знанию модельных переменных, эти вероятности называются апостериорными вероятностями. Апостериорные вероятности – это вероятности, вычисленные с использованием знания значений других переменных для образцов из частной совокупности.

Априорные вероятности классификации. Имеется одно дополнительное обстоятельство, которое следует рассмотреть при классификации наблюдений. Иногда известно заранее, что в одной из групп имеется больше наблюдений, чем в другой. Поэтому априорные вероятности того, что образец принадлежит такой группе, выше. Можно установить различные априорные вероятности, которые будут затем использоваться для уточнения результатов классификации наблюдений (и для вычисления апостериорных вероятностей).

Пошаговый дискриминантный анализ вводит переменные последовательно, исходя их способности различать (дискриминировать) группы [3].

При пошаговом анализе «с включением» на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

При пошаговом анализе «с исключением» движутся в обратном направлении.

В этом случае все переменные сначала будут включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в различение. Тогда в качестве результата успешного анализа можно сохранить только «важные» переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

Пошаговый дискриминантный анализ основан на использовании уровня значимости F-статистики. Он достаточно прост в реализации при компьютерной обработке данных и помогает наглядно оценивать качество полученной классификации, являясь дополнительным методом к двум вышеупомянутым.

Итог классификации. Общим результатом, на который следует обратить внимание при оценке качества текущей функции классификации, является матрица классификации. Матрица классификации содержит число образцов, корректно классифицированных (на диагонали матрицы) и тех, которые попали не в свои совокупности (группы).

4.4 Пример проведения дискриминантного анализа в пакете STATISTICA 10

Для проведения дискриминантного анализ возьмем данные Австралийского института спорта (Australian Institute of Sport), представленные на сайте http://www.statsci.org/data/oz/ais.html.

112

Женщины-спортсменки в количестве 42 человек разделены на три группы:

BBall – занимающиеся баскетболом;

Row – занимающиеся греблей;

Tennis – занимающиеся теннисом.

По результатам обследования известна принадлежность к группам, а также имеются следующие измерения (таблица 4.1):

RCC – количество красных кровяных телец;

WCC – количество лейкоцитов;

Hc – гематокрит;

Hg – гемоглобин;

Ferr – концентрация ферритина в плазме;

BMI – индекс массы тела;

SSF – площадь кожного покрова;

%Bfat – процент жира;

LBM – мышечная масса;

Ht – рост тела, см;

Wt – масса тела, кг.

Таблица 4.1 – Фрагмент таблицы результатов обследования женщинспортсменок, занимающихся баскетболом, греблей и теннисом

Sport

RCC

WCC

Hc

Hg

Ferr

BMI

SSF

%Bfat

LBM

Ht

Wt

 

 

 

 

 

 

 

 

 

 

 

 

BBall

4,71

5,3

41,4

14,0

38

25,75

171,1

28,83

68,53

193,4

96,3

 

 

 

 

 

 

 

 

 

 

 

 

BBall

4,62

7,3

43,8

14,7

26

21,20

76,8

18,08

61,85

188,7

75,5

 

 

 

 

 

 

 

 

 

 

 

 

BBall

4,35

7,8

41,4

14,1

30

22,03

117,8

23,30

48,32

169,1

63,0

 

 

 

 

 

 

 

 

 

 

 

 

Row

4,26

6,2

41,0

13,9

48

25,44

90,2

17,71

66,24

177,9

80,5

 

 

 

 

 

 

 

 

 

 

 

 

Row

4,63

6,0

43,7

14,7

30

22,63

97,2

18,77

57,92

177,5

71,3

 

 

 

 

 

 

 

 

 

 

 

 

Row

4,36

5,8

40,3

13,3

29

21,86

99,9

19,83

56,52

179,6

70,5

 

 

 

 

 

 

 

 

 

 

 

 

Row

3,91

7,3

37,6

12,9

43

22,27

125,9

25,16

54,78

181,3

73,2

 

 

 

 

 

 

 

 

 

 

 

 

Tennis

4,00

4,2

36,6

12,0

57

25,36

109,0

20,86

56,58

167,9

71,5

 

 

 

 

 

 

 

 

 

 

 

 

Tennis

4,40

4,0

40,8

13,9

73

22,12

98,1

19,64

56,01

177,5

69,7

 

 

 

 

 

 

 

 

 

 

 

 

Tennis

4,38

7,9

39,8

13,5

88

21,25

80,6

17,07

46,52

162,5

56,1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

113

 

 

 

 

 

Рисунок 4.2 – Окно Opening file
(Открытие файла)
Рисунок 4.1 – Окно Заменить программы «Блокнот» OC Windows

Алгоритм решения:

1 Файл, содержащий исходные данные с результатами обследования 102 мужчин и 100 женщин, занимающихся различными видами спорта, располагается по адресу http://www.statsci.org/data/oz/ais.txt. В этом файле необходимо произве-

сти замену точек, разделяющих целые части чисел от дробных, на запятые. Для этого необходимо в программе «Блокнот» OC Windows вызвать выпадающее меню Правка – команду Заменить, и в возникшем окне Заменить в поле Что поставить точку, а в поле Чем поставить запятую и нажать кнопку Заменить все (рисунок 4.1). Затем необходимо оставить в файле только информа-

цию о женщинах (female), занимающихся баскетболом (Bball), греблей (Row) и

теннисом (Tennis), а остальные данные удалить.

2 Скопируем содержимое файла ais.txt на рабочий лист электронной таблицы MS Excel и сохраним данные в файле ais.xls. Затем открываем файл ais.xls в пакете STATISTICA 10: вкладка Home (Главная) – команда Open (Открыть)

Open Document (Открыть документ) – в

окне Open (Открыть) выбрем файл ais.xls и нажмем кнопку ОК. В возникшем окне

Opening file (Открытие файла) (рису-

нок 4.2) нажимаем кнопку Import all sheets to a Workbook (Импортировать все листы в Рабочую книгу). Затем в появившемся окне Open Excel Workbook

(Открыть рабочую книгу Excel) (рису-

нок 4.3) поставим галочку в опции Get variable names from first row (Имена пе-

ременных из первой строки) и нажмем кнопку ОК. Далее в появившемся окне

Import Text Label Values (Импорт значений текстовых меток) (рисунок 4.4)

поставим галочку в опции Do this for all numeric variables when the data is text

(Делать это для всех числовых переменных, где текстовые данные) и нажмем кнопку Import as Text Labels (Импорт. как текстовые метки). На экране поя-

вится импортированная из Excel таблица результатов обследования женщинспортсменок, занимающихся баскетболом, греблей и теннисом.

114

Рисунок 4.3 – Окно Open Excel

Рисунок 4.4 – Окно окне Import Text Label

Workbook (Открыть рабочую книгу

Values (Импорт значений текстовых

Excel)

меток)

3 Вычислим описательные статистики для исходных данных: во вкладке

Statistics (Анализ) в группе Base (Базовые статистики) выбрем команду Basic Statistics (Основные статистики и таблицы) – затем в окне Basic Statistics and

Tables (Основные статистики и таблицы) выбрем пункт Descriptive statistics (Описательные статистики) и нажмем ОК. В возникшем окне Descriptive statistics (Описательные статистики), нажав кнопку Variables (Переменные),

выбрем все числовые переменные для анализа. Затем в этом окне выбрем стати-

стические показатели – Valid N (N набл.), Mean (Среднее), Conf. limits for means

(Доверит. интервал среднего) 95%, Minimum & maximum (Минимум и максимум), Range (Размах), Variance (Дисперсия), Standard Deviation (Стандартное отклонение), Std. err. of mean (Стандартн. ошибка среднего) – и нажимем кнопку Summary (OK). На экране появится таблица вычисленных статистических показателей (рисунок 4.5).

Рисунок 4.5 – Описательные статистики для исходных данных

115

4 Проверим характер распределения переменных на нормальность по критерию Колмогорова–Смирнова. На вкладке Graphs (Графика) в группе Common (Общие) выбрем команду Histogram (Гистограмма). Затем в возникшем окне

2D Histograms (2М Гистограммы) во вкладке Advanced (Дополнительно), на-

жав кнопку Variables (Переменные), выбрем все числовые переменные для анализа, поставим галочку в опции Kolmogorov-Smimov test (Критерий Колмогоро- ва–Смирнова) и, нажав кнопку ОК, построим гистограммы с расчетными значениями этого критерия. В таблице 4.2 представлены полученные расчетные значения критерия Колмогорова–Смирнова, которые для всех переменных меньше табличного значения Dтабл = 0,19221 для N = 42 и α = 0,05. Следовательно можно считать, что эмпирические распределения переменных не отличаются от нормального, и дискриминантный анализ можно проводить.

Таблица 4.2 – Расчетные значения критерия Колмогорова–Смирнова

Наименование

Расчетное значение

Наименование

Расчетное значение

показателя

критерия Колмогорова–

показателя

критерия

 

Смирнова Dрасч

 

Колмогорова–

 

 

 

Смирнова Dрасч

 

 

 

 

WCC

0,0706

SSF

0,0781

 

 

 

 

Hc

0,1059

%Bfat

0,0781

 

 

 

 

Hg

0,1467

LBM

0,0995

 

 

 

 

Ferr

0,1372

Ht

0,1233

 

 

 

 

BMI

0,0614

Wt

0,1154

 

 

 

 

5 Проведем корреляционный анализ. Во вкладке Statistics (Анализ) в группе

Base (Базовые статистики) выберем команду Basic Statistics (Основные стати-

стики и таблицы). Затем в возникшем окне Basic Statistics and Tables (Основ-

ные статистики и таблицы) выберем пункт Correlation matrices (Парные и ча-

стные корреляции) и нажмем ОК. В появившемся окне Product-Moment and Partial Correlations (Парные и частные корреляции) (рисунок 4.6), нажав кноп-

ку One variable list (Квадратная матрица), выберем все числовые переменные для анализа. Затем нажмем кнопку Summary (ОК). На экране появится таблица с результатами корреляционного анализа (таблица 4.3). Между некоторыми переменными наблюдается сильная положительная корреляция.

116

Рисунок 4.6 – Окно Product-Moment and Partial

Correlations (Парные и частные корреляции)

Таблица 4.3 – Результатами корреляционного анализа

 

RCC

WCC

Hc

Hg

Ferr

BMI

SSF

%Bfat

LBM

Ht

Wt

RCC

1,00

0,21

0,88

0,78

–0,01

–0,38

–0,20

–0,19

–0,21

0,02

–0,21

 

 

 

 

 

 

 

 

 

 

 

 

WCC

0,21

1,00

0,35

0,40

0,04

–0,12

–0,09

0,04

–0,13

–0,03

–0,10

 

 

 

 

 

 

 

 

 

 

 

 

Hc

0,88

0,35

1,00

0,93

–0,13

–0,22

–0,18

–0,10

–0,06

0,09

–0,07

 

 

 

 

 

 

 

 

 

 

 

 

Hg

0,78

0,40

0,93

1,00

–0,10

–0,11

–0,13

–0,04

–0,03

0,05

–0,03

 

 

 

 

 

 

 

 

 

 

 

 

Ferr

–0,01

0,04

–0,13

–0,10

1,00

–0,32

–0,32

–0,36

–0,37

–0,35

–0,41

 

 

 

 

 

 

 

 

 

 

 

 

BMI

–0,38

–0,12

–0,22

–0,11

–0,32

1,00

0,54

0,57

0,72

0,23

0,78

 

 

 

 

 

 

 

 

 

 

 

 

SSF

–0,20

–0,09

–0,18

–0,13

–0,32

0,54

1,00

0,94

0,39

0,47

0,65

 

 

 

 

 

 

 

 

 

 

 

 

%Bfat

–0,19

0,04

–0,10

–0,04

–0,36

0,57

0,94

1,00

0,39

0,47

0,66

 

 

 

 

 

 

 

 

 

 

 

 

LBM

–0,21

–0,13

–0,06

–0,03

–0,37

0,72

0,39

0,39

1,00

0,76

0,94

 

 

 

 

 

 

 

 

 

 

 

 

Ht

0,02

–0,03

0,09

0,05

–0,35

0,23

0,47

0,47

0,76

1,00

0,78

 

 

 

 

 

 

 

 

 

 

 

 

Wt

–0,21

–0,10

–0,07

–0,03

–0,41

0,78

0,65

0,66

0,94

0,78

1,00

 

 

 

 

 

 

 

 

 

 

 

 

117

6 Откроем модуль Discriminant (Дискриминантный анализ): во вкладке

Statistics (Статистика) в группе Advanced/Multivariate (Углубленная статисти-

ка) Base (Базовые статистики) необходимо выбрать команду Mult/ExpIoratory (Многомерный анализ) и затем в выпадающем списке выбрать пункт Discriminant (Дискриминантный анализ). На экране появится стартовое окно этого модуля (рисунок 4.7), в котором, нажав кнопку Variables (Переменные), необходимо выбрать группирующую переменную (Grouping variable) Sport – и

независимые переменные (Independent variable list) RCC, WCC, Hc, Hg, Ferr,

BMI, SSF, %Bfat, LBM, Ht, Wt. Поставим галочку в опции Advanced options (stepwise or ridge regression) (Дополнительные параметры (пошаговый анализ)).

Нажмем кнопку Codes for grouping variable (Коды для группирующей пере-

менной), в появившемся окне нажмем кнопку All (Все), затем нажмем кнопку ОК.

В окне модуля Discriminant (Дискриминантный анализ) нажмем ОК.

Рисунок 4.7 – Стартовое окно модуля

Discriminant (Дискриминантный анализ)

В возникшем диалоговом окне Model Definition (Определение модели) (рисунок 4.8) во вкладке Advanced (Дополнительно) в выпадающем списке Method (Метод) выберем метод пошаговый с включениями (Backward stepwise) и нажмем кнопку ОК.

118

Рисунок 4.8 – Окно Model Definition

(Определение модели)

7 В информационной части появившегося окна Discriminant Function

Analysis Results (Результаты анализа дискриминантных функций) (рису-

нок 4.9) рассмотрим основные сведения о методе анализа, переменных, включенных в модель, значениях стандартных статистических показателей:

Stepwise Analysis (Пошаговый анализ) Step (Шаг) 5 Final Step (Ко-

нечный шаг);

Number of variables in the model (Число переменных в модели) 5;

Last variable entered (Последняя включенная переменная) RCC, соот-

ветствующее значение статистики F-критерия F(2, 35) = 0,58 при уровне значимо-

сти p < 0,5667;

Wilks' Lambda (Лямбда Уилкса) 0,2409;

приближенное значение F-статистики, связанной с лямбдой Уилкса, –

F(10, 70) = 7,26;

p < 0,0000 – уровень значимости F-критерия для значения 7,26.

Значение критерия F = 7,26 и p < 0,0000 свидетельствует о статистической значимости модели.

Значение константы лямбда Уилкса лежат в интервале [0, 1]. Значения, лежащие около 0, свидетельствуют о хорошей дискриминации; значения, лежащие около 1, свидетельствуют о плохой дискриминации [1].

119

Рисунок 4.9 – Результаты анализа дискриминантных функций

8 Проанализируем структуру взаимосвязи между группами баскетбол, гребля и теннис. Выберем вкладку Advanced (Дополнительно) и нажмем кнопку

Distances between groups (Расстояния между группами) (рисунок 4.9). На экране появится окно анализа с тремя следующими таблицами:

Squared Mahalanobis Distances (Квадраты расстояний Махаланобиса)

(рисунок 4.10);

F-values; df = 5,35 (рисунок 4.10 б);

p-values (р-уровень значимости) (рисунок 4.10 в).

а)

б)

в)

Рисунок 4.10 – Таблицы с результатами дискриминантного анализа – расстояния между группами

По данным таблицы Squared Mahalanobis Distances (Квадраты расстоя-

ний Махаланобиса) (рисунок 4.10 а) можно судить о качестве классификации модели. Чем больше расстояние, тем качественнее прошла дискриминация наблю-

120