Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

.pdf
Скачиваний:
134
Добавлен:
14.03.2016
Размер:
5.88 Mб
Скачать

Иными словами, алгоритм k-средних остановится тогда, когда ошибка E достигнет достаточно малого значения [8].

2.5 Пример проведения кластерного анализаалгоритмом k-средних в пакетe STATISTICA 10

Профессиональный отбор врачей-лаборантов сопровождается анализом их профессионально значимых функций, уровень развития которых оценивается по психофизиологическим реакциям, в частности (таблица 2.1): распределение внимания по таблицам Шульте–Платонова (ШП, сек), срывам дифференцировочной реакции на сложный световой раздражитель (СД, абс. число срывов), тактильной чувствительности (ТЧ, мм) [6]. Вопрос: можно ли разделить 32 претендента на группы, сколько таких групп может получиться исходя из результатов профотбора, поскольку руководитель организации стоит перед сложной материальной проблемой оснащения не более четырех лабораторий?

Таблица 2.1 – Психофизиологические реакции врачей-лаборантов

ШП

СД

ТЧ

 

ШП

СД

ТЧ

1

66

6

4

 

17

50

5

4

2

40

4

2

 

18

52

5

3

3

50

4

2

 

19

48

5

3

4

70

6

2

 

20

47

5

4

5

54

5

3

 

21

48

5

3

6

70

6

3

 

22

70

7

4

7

50

5

4

 

23

50

5

4

3

49

4

3

 

24

54

5

5

9

48

5

3

 

25

60

4

5

10

70

6

4

 

26

70

7

4

11

45

5

3

 

27

50

4

5

12

70

6

3

 

28

48

5

4

13

47

5

7

 

29

51

5

3

14

54

5

5

 

30

52

4

5

15

49

5

7

 

31

47

5

7

16

48

5

7

 

32

51

5

4

 

 

 

 

41

 

 

 

Алгоритм решения [6]:

1 Создадим новую таблицу: вкладка New (Главная) группа File (Файл) команда New (Создать). В окне Create New Document (Создать новый доку-

мент) во вкладке Spreadsheed (Рабочий лист) введем следующие параметры:

в поле Number of variables (Количество переменных) – 3;

в поле Number of cases (Количество наблюдений) – 32.

Нажимаем кнопку ОК.

2 Введем исходные данные в отдельные столбцы, соответствующие пере-

менным.

3 Во вкладке Data (Данные) в группе

Transformations (Трансформация) выберем команду Standardize (Стандартизация) и в окне Standardization of Values (Стандарти-

зация значений) (рисунок 2.2) зададим значения параметров:

Variables (Переменные) Var 1–3;

Cases (Наблюдения) – All (Все);

Weight (Вес) – Off (Не задавать). Нажав ОК, выполним стандартизацию. Стандартизация необходима для того,

чтобы привести данные к одному порядку, и осуществляется по следующей формуле (18):

z

x μ

,

18

σ

 

 

 

Рисунок 2.2 – Окно

Standardization of Values (Стандартизация значений)

где x – наблюдаемое значение переменной; μ – среднее значение; σ – выборочное

стандартное отклонение.

4 На вкладке Statistics (Анализ) в группе Advanced/Multivariate (Углуб-

ленная статистика) выберем команду Mult/Exploratory (Многомерный анализ) Cluster (Кластерный анализ).

5 В появившемся окне Clustering Method (Методы кластеризации) (рису-

нок 2.1) выберем метод K-means clustering (Кластеризация методом К-средних)

и нажмем ОК.

6 В диалоговом окне этого метода Cluster Analysis: K-Means Clustering (Кластерный анализ: кластеризация методом К-средних) во вкладке Advanced

(Дополнительно) (рисунок 2.3.) заполним:

Variables (Переменные) Var 1, 2, 3;

Cluster (Кластер) Cases (rows) (Наблюдения (Строки));

Number of clusters (Число кластеров) – для начала зададим значение 2;

Number of iteration (Число итераций) – установим значение 10;

установим Sort distances and take observations at constant intervals (Сор-

тировать расстояния и выбрать наблюдения на постоянных интервалах).

42

Рисунок 2.3 – Окно Cluster Analysis: K-Means Clustering

(Кластерный анализ: кластеризация методом К-средних)

7 Нажав OK, выполним кластеризацию. В окне результатов k - Means Clustering Results (Результаты метода K-Cредних) (рисунок 2.4) определяем, что решение получено после одной итерации. Для просмотра и сохранения результатов в этом окне можно выбрать:

Summary: Cluster means & Euclidean distances (Средние кластеров и евклидовы расстояния);

Analysis of variance (Дисперсионный анализ);

Graph of means (График средних);

Descriptive statistics for each cluster (Статистики для каждого кластера);

Members of each cluster & distances (Элементы кластеров и расстояния);

Save classifications and distances (Сохранить классификацию и расстояния).

43

Рисунок 2.4 – Окно k - Means Clustering Results

(Результаты метода K-Cредних)

8 Нажав кнопку Graph of means (График средних) (рисунок 2.4), получим средние значения по каждому кластеру на одном графике (рисунок 2.5). Из этого графика видно наибольшее различие между кластером 1 и 2. Точки их средних значений по трем параметрам находятся на самых больших расстояниях друг от друга.

Анализ показал следующее: во второй кластер вошли врачи-лаборанты, у которых высокий уровень кинестезии, малое количество срывов дифференцировки, но низкие скорости переключения внимания. В первый кластер, напротив, вошли специалисты обладающие сравнительно низкой кинестезий, но высокими скоростями переключения внимания и средними показателями срыва дифференцировки [6].

44

График средних для каждого кластера

 

1,5

 

 

 

1,0

 

 

 

0,5

 

 

 

0,0

 

 

 

-0,5

 

 

 

-1,0

 

 

 

ШП

СД

ТЧ

Кластер 1

 

Переменные

 

Кластер 2

Рисунок 2.5 – График средних для каждого кластера

 

9 Закроим окно графика. Нажав кнопку Summary: Cluster means & Euclidean distances (Средние кластеров и евклидовы расстояния) (рисунок 2.4) вы-

ведем таблицу (рисунок 2.6), в которой под нулями указаны расстояния между двумя кластерами, а над нулями указаны квадраты расстояний. Чем больше расстояния, тем больше кластеры различаются. Расстояние между кластерами 1 и 2 равно 1,163, а квадрат расстояния равен 1,353. Закроим окно.

Рисунок 2.6 – Евклидовы расстояния между кластерами (расстояния под диагональю, квадраты расстояний над диагональю)

45

10 Нажав кнопку Descriptive statistics for each cluster (Статистики для каждого кластера) (рисунок 2.4) выведем таблицу анализа для каждого кластера (рисунок 2.7). В этой таблице представлено Mean (Среднее), Standard Deviation

(Стандартное отклонение) и Variance (Дисперсия). Закроим окно.

Рисунок 2.7 – Статистика для каждого кластера

11 Нажав кнопку Members of each cluster & distances (Элементы класте-

ров и расстояния) (рисунок 2.4), выведем на экран таблицы для двух кластеров с содержащимися в них наблюдениями и значениями стандартизированных расстояний. Например, в кластер 1 (таблица 2.2) объединены 23 наблюдения. Наименьшее расстояние (0,240) до центра кластера имеет наблюдение номер 5, а наибольшее расстояние (1,636) имеет наблюдение номер 26. Первое можно назвать наиболее типичным представителем кластера, а второе – наименее типичным. Закроем окно.

Таблица 2.2 – Наблюдения кластера номер 1

Номер

Расстояние

Номер

Расстояние

Номер

Расстояние

Номер

Расстояние

набл.

 

набл.

 

набл.

 

набл.

 

 

 

 

 

 

 

 

 

1

0,937

7

0,474

17

0,474

23

0,474

2

1,451

8

1,023

18

0,304

26

1,636

3

1,124

9

0,512

19

0,512

28

0,571

4

1,228

10

1,144

20

0,624

29

0,349

5

0,240

11

0,690

21

0,512

32

0,432

6

1,115

12

1,115

22

1,636

 

 

12 Нажав кнопку Analysis of variance (Дисперсионный анализ) (рису-

нок 2.4), выведем таблицу анализа дисперсии (рисунок 2.8), в которой представлены величины межгрупповой (Between SS) и внутригрупповой (Within SS) дисперсий. Чем меньше значение внутригрупповой дисперсии по сравнению с межгрупповой, тем «качественнее» прошла кластеризация. Результаты дисперсионного анализа свидетельствуют, что разделение на кластеры произошло неудачно, поскольку уровень значимости р у критерия Фишера меньше 0,05 только для переменной ТЧ. Для переменных ШП и СД уровни внутригрупповой дисперсии боль-

46

ше уровней межгрупповой. Переменные с р > 0,05 из процедуры кластеризации исключают. Закроем окно дисперсионного анализа.

Рисунок 2.8 – Дисперсионный анализ

13 Проанализируем, можно ли улучшить качество кластеризации. Что будет, если разбить совокупность не на два, а на три кластера? Для этого изменим значение в поле Number of clusters (Число кластеров) на 3 (рисунок 2.3) и, нажав ОК, выполним кластеризацию.

14 Нажав кнопку Members of each cluster & distances (Элементы класте-

ров и расстояния) (рисунок 2.4), выведем окна с тремя таблицами для разных кластеров. В таблице 2.3 представлены результаты кластеризации при разбиении выборки на 2 и 3 кластера. Очевидно, что второй кластер не изменился, в нем остались те же 9 человек, а вот первый кластер распался на два: второй и третий. Во втором оказалось 6 человек, в третьем – 16.

Таблица 2.3 –Результаты кластерного анализа

Разбиение выборки

 

 

 

Разбиение выборки на 3 кластера

 

 

 

на 2 кластера

 

 

 

 

 

 

 

 

 

 

 

 

 

Кластер 1

 

Кластер2

 

Кластер 1

Кластер 2

 

Кластер 3

1, 2, 3, 4, 5, 6,

13,

14,

15,

16,

13,

14,

15,

16,

1, 4, 6, 10, 12,

2,

3, 5, 7,

8, 9,

7, 8, 9, 10, 11,

24,

25,

27,

30,

24,

25,

27,

30,

22, 26

11,

17,

18,

19,

12, 17, 18, 19,

31

 

 

 

31

 

 

 

 

20,

21,

23,

28,

20, 21, 22, 23,

 

 

 

 

 

 

 

 

 

29, 32

 

 

 

26, 28, 29, 32

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15 Нажав кнопку Graph of means (График средних) (рисунок 2.4), получим средние значения по каждому кластеру на одном графике (рисунок 2.9). График для первого кластера не изменился (сравним рисунки 2.5 и 2.9).

47

Справка: критерий для дисперсионного анализа

Величина различий средних значений измеряемой величины в зависимости от уровня действующего фактора может быть выражена с помощью разброса этих средних значений. Чтобы оценить различия между средними, сравним межгрупповой разброс средних для n1 выборок или n1 уровней действующего фактора

Sмеж2 n2Sx2 (n2 – число наблюдений в группе) с разбросом отдельных значений

внутри каждой группы [3]. Средний внутригрупповой разброс может быть рассчитан следующим образом (19):

Sвнутр2

S12 S22 S32 Sn2

.

19

 

 

n1 1

 

Если верна нулевая гипотеза, что средние величины результативного признака во всех условиях действия фактора одинаковы, то как внутригрупповая, так и межгрупповая дисперсии служат оценкой одной и той же генеральной дисперсии всей совокупности σ2 и должны быть примерно одинаковы, a их отношение должно быть равно 1. Чем больше разброс средних отличается от разброса внутри каждой группы, тем меньше вероятность того, что эти группы – случайные выборки из одной совокупности. Поэтому критерии, предложенный Фишером, рассчитывают по следующей формуле (20):

F

Sмеж2

.

20

 

 

S 2

 

 

внутр

 

Значения критерия больше единицы свидетельствуют о различиях средних значений. Если извлекать выборки из нормально распределенной совокупности, то значение критерия будет изменяться от опыта к опыту. Критическое значение

Fкритич будет зависеть от уровня значимости и числа степеней свободы для внутригрупповых вычислений и межгрупповых расчетов [3].

Если F > Fкритич, то нулевую гипотезу отвергают при данном уровне значимости и данных степенях свободы (21):

kмеж = n1 – 1; (21)

kвнутр = n1(n2 – 1),

где n1 – количество групп (или уровней фактора); n2 – число наблюдений в каждой группе.

Таблицы критических значений критерия Фишера для уровней значимости 0,01 и 0,05 приведены в приложении Д.

48

График средних для каждого кластера

 

2,0

 

 

 

1,5

 

 

 

1,0

 

 

 

0,5

 

 

 

0,0

 

 

 

-0,5

 

 

 

-1,0

 

 

Кластер 1

ШП

СД

ТЧ

Кластер 2

 

Переменные

 

Кластер 3

Рисунок 2.9 – График средних для каждого кластера

 

16 Нажав кнопку Analysis of variance (Дисперсионный анализ) (рису-

нок 2.4), выведем таблицу анализа дисперсии (рисунок 2.10). Результаты дисперсионного анализа свидетельствуют, что разделение произошло успешно, поскольку уровень значимости р у критерия Фишера меньше 0,05 для всех переменных. Закроем окно дисперсионного анализа.

Рисунок 2.10 – Дисперсионный анализ

Таким образом, мы рассредоточили врачей-лаборантов, опираясь на один из важных, ведущих показателей их профессиональной пригодности: распределение внимания с претензией на совершенствование его [6].

49

Этот процесс не является окончательным, процесс детализации профессиональной пригодности можно продолжить: разобьем совокупность на 4 кластера (таблица 2.4). В этом случае первый кластер будет разбит еще на два кластера по 5 и 4 человек, второй и третий кластеры окажутся неизменными. Анализ величин межгрупповой и внутригрупповой дисперсий здесь показывает также значимый результат. Однако дальнейшее увеличение числа кластеров не несет практически никакой содержательной информации, распыляя совокупность по одному-два человека в каждом кластере [6].

Таблица 2.4 – Результаты кластерного анализа

Разбиение выборки на 4 кластера

 

 

Кластер 1

 

 

Кластер 2

 

Кластер 3

Кластер 4

1,

4,

6,

10,

12,

22,

2, 3, 5, 7, 8, 9, 11,

14, 24, 25, 27, 30

13, 15, 16, 31

26

 

 

 

 

 

17,

18,

19,

20,

21,

 

 

 

 

 

 

 

 

23, 28, 29, 32

 

 

 

Вывод: данную выборку наиболее целесообразно разделить на три кластера, но не исключено деление на четыре кластера, все зависит от точки зрения экспериментатора и требований ситуации.

2.6 Алгоритм древовидной кластеризации

Назначение агломеративного типа древовидной кластеризации (Joining tree clustering) состоит в объединении объектов в достаточно большие кластеры с использованием некоторой меры сходства или расстояния между объектами. Типичным результатом такой кластеризации служит иерархическое дерево, которое строится либо в координатах шагов, либо в координатах расстояний [3].

Горизонтальная древовидная диаграмма отображает число шагов кластеризации, которые откладывают по горизонтали (возможно также отображение шагов по вертикальной оси). Диаграмма начинается в левой части с каждого объекта в классе. Перед началом кластеризации все объекты считают отдельными кластерами, в ходе алгоритма они объединяются. Вначале выбирается пара ближайших кластеров, которые объединяют в один кластер. Представим, что постепенно мы ослабляем критерий, то есть понижаем порог, относящийся к решению об объединении двух или более объектов в один. В результате связываются вместе все большее и большее число объектов и агрегируется (объединяется) все больше и больше кластеров, состоящих из наиболее сильно различающихся элементов. Процедура повторяется, пока все классы не объединятся в один кластер. На рисунке 2.11 видно, что вначале было три кластера, затем на 5 шаге произошло объ-

50