Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Медицинская_статистика_Жижин_К_С_

.pdf
Скачиваний:
2
Добавлен:
24.03.2024
Размер:
8.17 Mб
Скачать

Глава 9. Mнoroмepныe стаТИCJИчеаме lIетоды

••

 

 

 

Невзвешенная попарно-rpупповая центроидная.

Взвешенная попарно-групповая uентроидная - медианная).

Межrpупповое связывание.

Внyrpиrpупповое связывание.

Центроидная кластеризация.

Медианная кластеризация.

«Разброс» стратегий, как видно из перечня, широк, и

если мы хотим получить от кластеризации наибольший эффект, лучше ее осущестWlЯТЬ несколькими методами, выбирая наиболее предпочтительную. Это, между прочим,

характерно для всех многомерных методик: не столько

важна методика статистической обработки, сколько ее

интерпретация.

ПРИЕМЫ КЛАCfEРНОГО АНАЛИЗА 'в МЕДико­

БИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

Агломеративные идивизивные методы кластеризации в решении задач, возникающих в медико-биологических исследованиях. В статистических пакетах SPSS и Statistica.

Поскольку для большей части исследователей-врачей

,

'

или биологов данный раздел статистической обработки будет совершенно необычным и новым, в самом начале

кластеризации стоит объяснить стратегическую направ­

ленность юшстеризации, что ЯШlяется сутью исследования:

агломерация (объединение) и дивизиация (разделение).

На практике при разведочном (эксплораторном) ана­

лизе, когда исследователь испытывает дефицит достовер­ ной информации, предпочитают агломеративную страте­ гию, чтобы оптимизировать количество кластеров. Такой

подход позволяет исследователю определить количество

кластеров, которое позволит ориентироваться в ходе даль­

нейшего конфирматорного (уточняющего) анализа выбо­

рочной совокупности.

Важно подчеркнуть, резудь.тат в полной зависимости от того, насколько эта выборка репрезентативна, чтобы,

опираясь на ее результаты, характеризовать генеральную

100

Медицинская статистика

совокупность. Этот момент должен быть исследован от­

дельно: с помощью дискриминантного анализа, методов

получения репрезентативной выборки, ее необходимого

объема, валидности методик и т. д.

Итак, как мы сказали, данный вид анализа носит эв­

ристический характер и соответственно не имеет под со­

бой достаточных статистических оснЬваниЙ. В любой мо­ мент может возникнуть потребность повторного проведе­

ния кластерного анализа с использованием иных методов

кластеризации.

r

Примечание. Неопытнымм исследователями ре-""

 

зультаты кластеризации выдаются за окончательные

и единственно возможные. Это глубокое заблужде­

ние, поскольку кластеризация - начало статистмчес"!

кого разделительного анализа.

Даже в научных статьях подчас никакого обсуждения

устойчивости, сравнительного анализа применения различ­

ных стратегий кластеризации, как правило, не приводит­

ся. Тем не менее вполне реальна возможность радикально­

го изменения выводов экспериментального исследования

при отступлении от используемых кластеризационных

процедур. Пренебрежение этими установками может при­

водить к полярным результатам кластеризации одних и тех

же эмпирических данных.

Алгоритм применения кластерного анализа в любом

исследовании при использовании статистических пакетов

программ должен учитывать:

а) Типы измерительных шкал, примененных для по­

лучения выборки: интервальные, порядковые, но-'

минальные, дихотомические шкалы, их однотип­

ность.

б) Подходит или нет стаТИСТl1ческий пакет кластерно­

го анализа.

В) Направление кластеризации, меру сходства или раз­

личия для построения метрического пространства

данных, Г.110бальную стратегию кла.стеризации.

Глава 9. Многомерные статистические методы

101

г) Содержательную интерпретацию кластеризации,

дополнительную проверку на других приемах клас­

теризации, других статистических пакетов.

Приложение предложенного алгоритма к реальной

ситуации на практике может высветлить явное отличие от

приведенной канонической схемы. Сущность этого несо­

ответствия обусловлена наличием тех самых разнотипных

измерительных_ шкал, о которых сказано выше, и в силу

этого для определения сходства между объектами обяза­

тельно применение коэффициент Гауэра.

ПРАКТИКА КЛАСТЕРНОГО АНАЛИЗА

В СТАТИСТИЧЕСКИХ ПАКЕТАХ SPSS И STATISTICA

Упражнение27. • • • • • • • • • • • • .'. • • • • • • • •

Агломеративная кластеризация для эксплораторного

анализа данных (пакет Statistica).

Условие: профессиональный отбор врачей-лаборантов

сопровождается анализом их профессионально значимых

функций (ПЗФ), уровень развития которых оценивается по

психофизиологическим реакциям, в частности: раСl1ределе­

ние внимания по таблицам Шульте-Платонова (ШП, сек),

срывам дифференцировочной реакции на сложный свето­

вой раздражитель (СД, абс. число срывов), тактильной чув­

ствительности (ТЧ, ММ). Вопрос: можно ли разделить 32 пре­

тендента на группы, сколько таких групп может получиться

исходя из реЗУ/lьтатов профотбора, поскольку руководитель организации стоит перед сложной материальной проблемой

оснащения не более четырех лабораторий?

N9

ШП

сд

тч

NI

ШП

сд

тч

 

 

 

 

 

 

 

 

1

66

6

4

. 17

50

5

4

2

40

4

2

18

52

5

3

3

50

4

2

19

48

5

3

 

 

 

 

 

 

 

 

4

70

6

2

20

47

5

4

5

54

5

3

21

48

5

3

6

70

6

3

22

70

7

4

7

50

5

4

23

50

5

4

102

 

 

 

 

Медицинская статистика

 

 

 

 

 

 

 

Окончание табл.

 

 

 

 

 

 

 

 

 

 

 

Nt

ШП

сд

тч

Nt

ШП

 

СД

ТЧ

 

8

49

4

3

24

54

 

5

5

 

9

48

5

3

25

60

 

4

5

 

10

70

6

4

26

70

 

7

4

 

 

 

 

 

 

 

 

 

 

 

11

45

5

3

27

50

 

4

5

 

 

 

 

 

 

 

 

 

 

 

12

70

6

3

28

48

 

5

4

 

 

 

 

 

 

 

 

 

 

 

13

47

5

7

29

51

 

5

3

 

14

54

5

5

30

52

 

4

5

 

15

49

5

7

31

47

 

5

7

 

 

 

 

 

 

 

 

 

 

 

16

48

5

7

32

51

 

5

4

 

 

Решение:·

Ситуация требует эксплораторного анализа из-за того, что нет априорной информации о количестве кластеров, на

которые следует разделить данные. Здесь целесообразно

применить иерархическую агломеративную кластеризацию.

Она покажет оптимальное количество кластеров данной

выборки.

Для агломеративной кластеризации лучше использовать

пакет Statistica, в нем качественнее представлена графика

дендрограммы:

1. Запустив пакет, выбираем (Кластерный анализ), (Уп­

равление данными). Поскольку данные у нас представлены

различными по масштабу шкалами, необходимо выполнить

их стандартизацию.

2. В (Файл) выберем команду (Новые данные). В окне (Создать новый файл) зададим необходимые параме"гры:

(Имя нового файла). Разм·ещение файла на опреде­

ленном логическом диске.и в нужной папке. Расши­

 

рение имени его появится автоматически.

(Количество переменных) -

3.

(Количество наблюдений) -

32.

(Длина имени случая) - оставим «О».

(Формат значений) - по умолчанию «8.3», это озна­

 

чает общую длину 8 позиций и 3 позиции на знаки

после десятичной запятой. Дело в том, стандартиза-

Глава 9. MHorOllepHble статистические lIеТОАЫ

101

ция приводит к тому, что данные стc:t-новятся дробны­

ми и даже отрицательными. Поэтому зададим фор­

мат «5.2»: в стандартизованных данных мы будем

использовать два знака после запятой, один -

сама

запятая, один - целая часть (которая либо О, либо

1) и еще одна 110ЗИЦИЯ отводится на знак величины,

итого - пять знаков.

 

(Код для пропущенных значений) - оставим -

9999.

(Префикс названий переменных), оставим предлага­ емый префикс Var.

(Начальный номер имени переменной) - оставим

«1 ».

(Краткое описание файла) - это 110ле можно не за­

полнять.

3. Введем исходные данные в отдельные столбцы, соот­

ветствующие переменным.

4. В (Анализ) выберем команду (Стандартизовать) и в

окне (Стандартизация значений) зададим значения парамет­

ров:

 

(Переменные) - Var 1-3;

(Наблюдения, случаи) - А" (Все);

(Вес) - Off'(He задавать).

Нажав ОК, выполним стандартизацию.

5. Выполнив (Файл) - (Сохранить), сохраним результа­

ты стандартизации в файле.

б. В (Анализ) выберем команду (Другие статистики), вы­

зывающую переключатель модулей пакета и (Кластерный анализ). После этого модуль (Управление данными) можно

закрыть.

7. В пакете Statistica реализовано три базовых метода

кластерного анализа:

(Объединение - Дерево кластеризации) - агломе­

ративный метод кластеризации;

(Кластеризация средними) - дивизивный метод

(Двунаправленное объединение) -- кластеризация

одновременно и по объектам (случаям), и по пере­

менным (признакам).

104

Медицинская статистика

в данном случае нас интересует агломера"гивная клас­

теризация (Объединение - «Дерево» кластеризации).

8.При входе в стартовое меню пометим следующие поля:

(Переменные) - зададим здесь используемые пере­

менные Va,1-3.

(Тип входных данных) - выберем вариант (Ис~од­

ные данные).

(Кластеры) - что именно подверtать кластеризации:

а) объекты, на которых проводятся измерения - (На­ блюдения, случаи), или (Строки) исходной матрицы

данных, б) измеряемые признаки - (Переменные)~

или (Столбцы) матрицы данных. Выбираем (Случаи).

(Правило объединения (связывания» - выбор спо­

соба определения межкластерного расстояния

Здесь масса вариантов. Выберем сначала вариант (Оди­

ночная связь):

.• (Мера расстояния) - выбирается мера сходства или

различия. Выберем вариант (Меры расстояния). Наши данные - интервальные, выберем вар·иант (Евклидо­

во расстояние).

(Способ обработки пропущенных значений) - выбе­

рем (Удаление отсутствующих данных); второй воз­ можный вариант (Замена средними зl:tачениями).

9. Нажмем ОК выполним кластеризацию. Один из самых

существенных результатов кластеризации - получение ден­

дрограммы. Установим (Прямоугольная дендрограмма) и

(Процентная шкала дендрограммы). Последняя шакала ре­

зультат кластеризации переводит в проценты.

10.Анализируем (Вертикальный график). На дендро­

грамме явно просматривается образование двух кластеров.

11.Можно просмотреть и другие результаты кластери­

зации:

(Список Объединения), (График объединения), (Матри­

ца расстояний), (Описате/lьная Статистика). Все это при не­

обходимости можно сохранить.

Глава 9. Многомерные статистические методы

105

12. Можем проверить полученные результаты другими способами: (Полная связь), (Невзвешенная попарно-группо­ вая средняя), (Метод Уорда).

Дендрограммы, представленные на графиках подтвер­

ждают целесообразность разделения выборки именно на

два кластера.

Эта ситуация характерна для иерархических методов кластеризации: получить однозначный ответ на вопрос о

.числе кластеров тут невозможно.

Еще встречается ситуация, когда при использовании раз­

ных методов исследователь получает разное количество и

состав кластеров. Выручить может опыт исследователя, его

интуиция, а также четкая цель исследования.

ОтВет: агломеративная кластеризация позволяет пред­

положить, что данную эмпирическую выборку оптимально

разделять на два кластера (группы специалистов по усло­

вию задачи).

• • • • • • • • • • • • • • • • • • • • • •

)'l7l'ёt~Ii~lijf~ ~~. • • • • • • • • • • • • • • • • • • • • • •

Дивизивный вариант кластеризации выборки с исполь-

зованием пакета·Statistica.

УслоВие. Задача прежняя, только предстоит обосновать

разделение эмпирической выборки на кластеры.

Решение:

1. После агломеративной кластеризации перейдем к эта­

пу дивизивной кластеризации, будем дробить выборку на

заданное число кластеров.

Возвратимся в (Метод кластеризации) модуля (Кластер­

ный анализ) и выберем (Кластеризация k-средними), кото­

рый позволяет разбить исходное множество данных на фик­

сированное чи~ло кластеров.

2. В диалоговом окне этого метода «Cluster Analysis:

k-Means Clustering» заполним:

(Переменные) - Var 1, 2, з.

(Кластеризация случаев или переменных). Выберем

(<;лучаи-Строки).

'О&

Медицинская статистика

(Число кластеров) - для начaJIа зададим уже полу­

ченное нами значение «2».

(Максимальное число итераций) - принимает значе­

ния от 5 до 99, иначе процедура кластеризации «за­ виснет). Установим, например, значение «10).

(Способ обработки ошибо~ных или пропущенных зна­

чений) - выберем (Удаление пропущенных данных).

(Одновременная кластеризаL~ИЯ и вывод на печать)

активизировать не будем.

з. Нажав ОК, выполним кластеризацию. В окне резуль­

татов определяем, что решение получено после одной ите­ рации. Для просмотра и сохранения результатов можно вы­

брать:

(Анализ рассеяния);

(Средние значения переменных для каждого класте-

ра и расстояния);

(График средних значений);

(Описательная статистика для каждого кластера);

(Элементы каждого кластера и их расстояния до цен­

тра кластера);

(Сохранить классификацию и расстояния).

Для нас наиболее важные результаты: (Анализ рассея­

ния) сопоставляет величины межгрупповой и внутригруппо...

вой дисперсии.

/

/

------------_//

1

Глава 9. Многомерные статистические методы

107

Кнопка (График средних значений) выводит на экран

средние значения переменных по каждому кластеру на од­

ном графике (см. рисунок). Как показал анализ: в первый

кластер (1) в,Ошли врачи-лаборанты, у которых высокий уро­

вень кинестезии, малое количество срывов дифференциров­ ки, но низкие скорости переключения внимания. Во второй

кластер (L?, напротив, вошли специалисты обладающие срав­

нительно низкой кинестезий, но высокими скоростями пе­

реключения внимания и средними показателями срыва диф­ ференцировки.

Кнопка (Элементы каждого кластера и их расстояния до центра кластера) указывает, что первый кластер включает всего 7 случаев, а второй - 25.

Нельзя ли детализировать состав второго кластера? Что

если разбить совокупность не на два, а на три кластера?

4. Изменяем значение в поле (Число кластеров) на «3». Нажав ОК, выполним кластеризацию. На дендрограмме

средние значения для первого кластера принципиально не

изменились, а вот второй и третий кластеры претерпели из­

менения: в первом оказалось прежнее количество тестируе­

мых - 7, а вот второй кластер распался на два: второй и

третий. Во втором оказалось 6 индивидов, в третьем - 19.

Таким образом, мы рассредоточили врачей-лаборантов,

опираясь на один из важных, ведущих показателей их про­ фессиональной 11РИГОДНОСТИ: раСГlределение внимания с претензией на совершенствование его.

Этот процесс не окончательный, процесс детализации

Гlрофессиональной пригоднос"Ги можно продолжить: разо­

бьем совокупность на 4 кластера. В этом случае к первому

кластеру относится уже 24 индивида, к трем остальным от­

несены: один, один и шесть индивидов соответственно, что

дает прямо противоположный результат. Дальнейшее уве­

личение числа кластеров совсем не несет практически ника­

кой содержательной информации, раСГIЫЛЯЯ COBOKyrlHOCTb

по одному-два индивида в каждом кластере.

.

Резюме:данную выборку наиболее целесообразно раз­

делить на три кластера, но не исключено деление на два и

'Оl Медицинская статистика

четыре кластера, все зависит от точки зрения эксперимен­

татора и требо~аний ситуации

.......... .. ..

. .. ... ..... .. . . ... . ...

Упражнение29. • • • • • • • • • • • • • • • • • • • • • •

Выявление кластеров эмпирической выборки с исполь-

зованием пакета SPSS

условие: то же.

Решение:

1. Запустим пакет SPSS и введем данные по трем при­

знакам в отдельные столбцы, присвоив переменным назва­

ния Уаг 1-3.

2. Выполним стандартизацию данных. (Статистики) -

(Подытожить) - (Описательные статистики):

(Переменные) - Уаг 1-3;

(Сохранить стандартизованные величины как пере­

менные).

Вокне (Просмотр результатов) появились три новые

стандартизованные переменные. Переименуем их (Опреде­

ление переменной). Сохраним данные в файле.

з. Осуществим агломеративную кластеризацию:

(Статистики) - (Классифицировать) - (Иерархичес­

кий кластер).

В открывшемся окне (Иерархическая кластеризация)

зададим (Переменные) - Vаг1-З, установим фла­

жок (Кластер) - (Случаи).

Нажав (Графики••• ), установим (Дендрограмма) -

(Продолжить), возвратимся в основное окно.

Нажав (Метод), выберем метод кластеризации и раз­

мерность расстояния. Выберем метод (Ближайшего

соседа), (Мера), (Интервальная ,шкала), (Евклидово

расстояние).

Нажав (Продолжить), возвратимся в предыдущее окно:

НаЖмем кнопку (Статистики). Оставим флажок в (По­

рядок обьединения. Можно фиксирова"гь принадлеж­

ности к кластерам, причем сразу для всего диапазо­

на рещений: (Принадлежность к кластерам). Поста-