5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Медицинская_статистика_Жижин_К_С_
.pdfГлава 9. Mнoroмepныe стаТИCJИчеаме lIетоды |
•• |
|
|
|
|
•Невзвешенная попарно-rpупповая центроидная.
•Взвешенная попарно-групповая uентроидная - медианная).
•Межrpупповое связывание.
•Внyrpиrpупповое связывание.
•Центроидная кластеризация.
•Медианная кластеризация.
«Разброс» стратегий, как видно из перечня, широк, и
если мы хотим получить от кластеризации наибольший эффект, лучше ее осущестWlЯТЬ несколькими методами, выбирая наиболее предпочтительную. Это, между прочим,
характерно для всех многомерных методик: не столько
важна методика статистической обработки, сколько ее
интерпретация.
ПРИЕМЫ КЛАCfEРНОГО АНАЛИЗА 'в МЕДико
БИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ
Агломеративные идивизивные методы кластеризации в решении задач, возникающих в медико-биологических исследованиях. В статистических пакетах SPSS и Statistica.
Поскольку для большей части исследователей-врачей
, |
' |
или биологов данный раздел статистической обработки будет совершенно необычным и новым, в самом начале
кластеризации стоит объяснить стратегическую направ
ленность юшстеризации, что ЯШlяется сутью исследования:
агломерация (объединение) и дивизиация (разделение).
На практике при разведочном (эксплораторном) ана
лизе, когда исследователь испытывает дефицит достовер ной информации, предпочитают агломеративную страте гию, чтобы оптимизировать количество кластеров. Такой
подход позволяет исследователю определить количество
кластеров, которое позволит ориентироваться в ходе даль
нейшего конфирматорного (уточняющего) анализа выбо
рочной совокупности.
Важно подчеркнуть, резудь.тат в полной зависимости от того, насколько эта выборка репрезентативна, чтобы,
опираясь на ее результаты, характеризовать генеральную
100 |
Медицинская статистика |
совокупность. Этот момент должен быть исследован от
дельно: с помощью дискриминантного анализа, методов
получения репрезентативной выборки, ее необходимого
объема, валидности методик и т. д.
Итак, как мы сказали, данный вид анализа носит эв
ристический характер и соответственно не имеет под со
бой достаточных статистических оснЬваниЙ. В любой мо мент может возникнуть потребность повторного проведе
ния кластерного анализа с использованием иных методов
кластеризации.
r |
Примечание. Неопытнымм исследователями ре-"" |
|
зультаты кластеризации выдаются за окончательные
и единственно возможные. Это глубокое заблужде
ние, поскольку кластеризация - начало статистмчес"!
кого разделительного анализа.
Даже в научных статьях подчас никакого обсуждения
устойчивости, сравнительного анализа применения различ
ных стратегий кластеризации, как правило, не приводит
ся. Тем не менее вполне реальна возможность радикально
го изменения выводов экспериментального исследования
при отступлении от используемых кластеризационных
процедур. Пренебрежение этими установками может при
водить к полярным результатам кластеризации одних и тех
же эмпирических данных.
Алгоритм применения кластерного анализа в любом
исследовании при использовании статистических пакетов
программ должен учитывать:
а) Типы измерительных шкал, примененных для по
лучения выборки: интервальные, порядковые, но-'
минальные, дихотомические шкалы, их однотип
ность.
б) Подходит или нет стаТИСТl1ческий пакет кластерно
го анализа.
В) Направление кластеризации, меру сходства или раз
личия для построения метрического пространства
данных, Г.110бальную стратегию кла.стеризации.
Глава 9. Многомерные статистические методы |
101 |
г) Содержательную интерпретацию кластеризации,
дополнительную проверку на других приемах клас
теризации, других статистических пакетов.
Приложение предложенного алгоритма к реальной
ситуации на практике может высветлить явное отличие от
приведенной канонической схемы. Сущность этого несо
ответствия обусловлена наличием тех самых разнотипных
измерительных_ шкал, о которых сказано выше, и в силу
этого для определения сходства между объектами обяза
тельно применение коэффициент Гауэра.
ПРАКТИКА КЛАСТЕРНОГО АНАЛИЗА
В СТАТИСТИЧЕСКИХ ПАКЕТАХ SPSS И STATISTICA
Упражнение27. • • • • • • • • • • • • .'. • • • • • • • •
Агломеративная кластеризация для эксплораторного
анализа данных (пакет Statistica).
Условие: профессиональный отбор врачей-лаборантов
сопровождается анализом их профессионально значимых
функций (ПЗФ), уровень развития которых оценивается по
психофизиологическим реакциям, в частности: раСl1ределе
ние внимания по таблицам Шульте-Платонова (ШП, сек),
срывам дифференцировочной реакции на сложный свето
вой раздражитель (СД, абс. число срывов), тактильной чув
ствительности (ТЧ, ММ). Вопрос: можно ли разделить 32 пре
тендента на группы, сколько таких групп может получиться
исходя из реЗУ/lьтатов профотбора, поскольку руководитель организации стоит перед сложной материальной проблемой
оснащения не более четырех лабораторий?
N9 |
ШП |
сд |
тч |
NI |
ШП |
сд |
тч |
|
|
|
|
|
|
|
|
1 |
66 |
6 |
4 |
. 17 |
50 |
5 |
4 |
2 |
40 |
4 |
2 |
18 |
52 |
5 |
3 |
3 |
50 |
4 |
2 |
19 |
48 |
5 |
3 |
|
|
|
|
|
|
|
|
4 |
70 |
6 |
2 |
20 |
47 |
5 |
4 |
5 |
54 |
5 |
3 |
21 |
48 |
5 |
3 |
6 |
70 |
6 |
3 |
22 |
70 |
7 |
4 |
7 |
50 |
5 |
4 |
23 |
50 |
5 |
4 |
102 |
|
|
|
|
Медицинская статистика |
||||
|
|
|
|
|
|
|
Окончание табл. |
||
|
|
|
|
|
|
|
|
|
|
|
Nt |
ШП |
сд |
тч |
Nt |
ШП |
|
СД |
ТЧ |
|
8 |
49 |
4 |
3 |
24 |
54 |
|
5 |
5 |
|
9 |
48 |
5 |
3 |
25 |
60 |
|
4 |
5 |
|
10 |
70 |
6 |
4 |
26 |
70 |
|
7 |
4 |
|
|
|
|
|
|
|
|
|
|
|
11 |
45 |
5 |
3 |
27 |
50 |
|
4 |
5 |
|
|
|
|
|
|
|
|
|
|
|
12 |
70 |
6 |
3 |
28 |
48 |
|
5 |
4 |
|
|
|
|
|
|
|
|
|
|
|
13 |
47 |
5 |
7 |
29 |
51 |
|
5 |
3 |
|
14 |
54 |
5 |
5 |
30 |
52 |
|
4 |
5 |
|
15 |
49 |
5 |
7 |
31 |
47 |
|
5 |
7 |
|
|
|
|
|
|
|
|
|
|
|
16 |
48 |
5 |
7 |
32 |
51 |
|
5 |
4 |
|
|
Решение:·
Ситуация требует эксплораторного анализа из-за того, что нет априорной информации о количестве кластеров, на
которые следует разделить данные. Здесь целесообразно
применить иерархическую агломеративную кластеризацию.
Она покажет оптимальное количество кластеров данной
выборки.
Для агломеративной кластеризации лучше использовать
пакет Statistica, в нем качественнее представлена графика
дендрограммы:
1. Запустив пакет, выбираем (Кластерный анализ), (Уп
равление данными). Поскольку данные у нас представлены
различными по масштабу шкалами, необходимо выполнить
их стандартизацию.
2. В (Файл) выберем команду (Новые данные). В окне (Создать новый файл) зададим необходимые параме"гры:
•(Имя нового файла). Разм·ещение файла на опреде
ленном логическом диске.и в нужной папке. Расши
|
рение имени его появится автоматически. |
|
• |
(Количество переменных) - |
3. |
• |
(Количество наблюдений) - |
32. |
• |
(Длина имени случая) - оставим «О». |
|
• |
(Формат значений) - по умолчанию «8.3», это озна |
|
|
чает общую длину 8 позиций и 3 позиции на знаки |
после десятичной запятой. Дело в том, стандартиза-
Глава 9. MHorOllepHble статистические lIеТОАЫ |
101 |
ция приводит к тому, что данные стc:t-новятся дробны
ми и даже отрицательными. Поэтому зададим фор
мат «5.2»: в стандартизованных данных мы будем
использовать два знака после запятой, один - |
сама |
запятая, один - целая часть (которая либо О, либо |
|
1) и еще одна 110ЗИЦИЯ отводится на знак величины, |
|
итого - пять знаков. |
|
• (Код для пропущенных значений) - оставим - |
9999. |
•(Префикс названий переменных), оставим предлага емый префикс Var.
•(Начальный номер имени переменной) - оставим
«1 ».
• (Краткое описание файла) - это 110ле можно не за
полнять.
3. Введем исходные данные в отдельные столбцы, соот
ветствующие переменным.
4. В (Анализ) выберем команду (Стандартизовать) и в
окне (Стандартизация значений) зададим значения парамет
ров: |
|
• |
(Переменные) - Var 1-3; |
• |
(Наблюдения, случаи) - А" (Все); |
•(Вес) - Off'(He задавать).
Нажав ОК, выполним стандартизацию.
5. Выполнив (Файл) - (Сохранить), сохраним результа
ты стандартизации в файле.
б. В (Анализ) выберем команду (Другие статистики), вы
зывающую переключатель модулей пакета и (Кластерный анализ). После этого модуль (Управление данными) можно
закрыть.
7. В пакете Statistica реализовано три базовых метода
кластерного анализа:
•(Объединение - Дерево кластеризации) - агломе
ративный метод кластеризации;
• (Кластеризация средними) - дивизивный метод
•(Двунаправленное объединение) -- кластеризация
одновременно и по объектам (случаям), и по пере
менным (признакам).
104 |
Медицинская статистика |
в данном случае нас интересует агломера"гивная клас
теризация (Объединение - «Дерево» кластеризации).
8.При входе в стартовое меню пометим следующие поля:
•(Переменные) - зададим здесь используемые пере
менные Va,1-3.
•(Тип входных данных) - выберем вариант (Ис~од
ные данные).
•(Кластеры) - что именно подверtать кластеризации:
а) объекты, на которых проводятся измерения - (На блюдения, случаи), или (Строки) исходной матрицы
данных, б) измеряемые признаки - (Переменные)~
или (Столбцы) матрицы данных. Выбираем (Случаи).
•(Правило объединения (связывания» - выбор спо
соба определения межкластерного расстояния
Здесь масса вариантов. Выберем сначала вариант (Оди
ночная связь):
.• (Мера расстояния) - выбирается мера сходства или
различия. Выберем вариант (Меры расстояния). Наши данные - интервальные, выберем вар·иант (Евклидо
во расстояние).
• (Способ обработки пропущенных значений) - выбе
рем (Удаление отсутствующих данных); второй воз можный вариант (Замена средними зl:tачениями).
9. Нажмем ОК выполним кластеризацию. Один из самых
существенных результатов кластеризации - получение ден
дрограммы. Установим (Прямоугольная дендрограмма) и
(Процентная шкала дендрограммы). Последняя шакала ре
зультат кластеризации переводит в проценты.
10.Анализируем (Вертикальный график). На дендро
грамме явно просматривается образование двух кластеров.
11.Можно просмотреть и другие результаты кластери
зации:
(Список Объединения), (График объединения), (Матри
ца расстояний), (Описате/lьная Статистика). Все это при не
обходимости можно сохранить.
Глава 9. Многомерные статистические методы |
105 |
12. Можем проверить полученные результаты другими способами: (Полная связь), (Невзвешенная попарно-группо вая средняя), (Метод Уорда).
Дендрограммы, представленные на графиках подтвер
ждают целесообразность разделения выборки именно на
два кластера.
Эта ситуация характерна для иерархических методов кластеризации: получить однозначный ответ на вопрос о
.числе кластеров тут невозможно.
Еще встречается ситуация, когда при использовании раз
ных методов исследователь получает разное количество и
состав кластеров. Выручить может опыт исследователя, его
интуиция, а также четкая цель исследования.
ОтВет: агломеративная кластеризация позволяет пред
положить, что данную эмпирическую выборку оптимально
разделять на два кластера (группы специалистов по усло
вию задачи).
• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •
)'l7l'ёt~Ii~lijf~ ~~. • • • • • • • • • • • • • • • • • • • • • •
Дивизивный вариант кластеризации выборки с исполь-
зованием пакета·Statistica.
УслоВие. Задача прежняя, только предстоит обосновать
разделение эмпирической выборки на кластеры.
Решение:
1. После агломеративной кластеризации перейдем к эта
пу дивизивной кластеризации, будем дробить выборку на
заданное число кластеров.
Возвратимся в (Метод кластеризации) модуля (Кластер
ный анализ) и выберем (Кластеризация k-средними), кото
рый позволяет разбить исходное множество данных на фик
сированное чи~ло кластеров.
2. В диалоговом окне этого метода «Cluster Analysis:
k-Means Clustering» заполним:
• (Переменные) - Var 1, 2, з.
•(Кластеризация случаев или переменных). Выберем
(<;лучаи-Строки).
'О& |
Медицинская статистика |
•(Число кластеров) - для начaJIа зададим уже полу
ченное нами значение «2».
• (Максимальное число итераций) - принимает значе
ния от 5 до 99, иначе процедура кластеризации «за виснет). Установим, например, значение «10).
•(Способ обработки ошибо~ных или пропущенных зна
чений) - выберем (Удаление пропущенных данных).
•(Одновременная кластеризаL~ИЯ и вывод на печать)
активизировать не будем.
з. Нажав ОК, выполним кластеризацию. В окне резуль
татов определяем, что решение получено после одной ите рации. Для просмотра и сохранения результатов можно вы
брать:
•(Анализ рассеяния);
•(Средние значения переменных для каждого класте-
ра и расстояния);
•(График средних значений);
•(Описательная статистика для каждого кластера);
•(Элементы каждого кластера и их расстояния до цен
тра кластера);
•(Сохранить классификацию и расстояния).
Для нас наиболее важные результаты: (Анализ рассея
ния) сопоставляет величины межгрупповой и внутригруппо...
вой дисперсии.
/
/
------------_//
1
Глава 9. Многомерные статистические методы |
107 |
Кнопка (График средних значений) выводит на экран
средние значения переменных по каждому кластеру на од
ном графике (см. рисунок). Как показал анализ: в первый
кластер (1) в,Ошли врачи-лаборанты, у которых высокий уро
вень кинестезии, малое количество срывов дифференциров ки, но низкие скорости переключения внимания. Во второй
кластер (L?, напротив, вошли специалисты обладающие срав
нительно низкой кинестезий, но высокими скоростями пе
реключения внимания и средними показателями срыва диф ференцировки.
Кнопка (Элементы каждого кластера и их расстояния до центра кластера) указывает, что первый кластер включает всего 7 случаев, а второй - 25.
Нельзя ли детализировать состав второго кластера? Что
если разбить совокупность не на два, а на три кластера?
4. Изменяем значение в поле (Число кластеров) на «3». Нажав ОК, выполним кластеризацию. На дендрограмме
средние значения для первого кластера принципиально не
изменились, а вот второй и третий кластеры претерпели из
менения: в первом оказалось прежнее количество тестируе
мых - 7, а вот второй кластер распался на два: второй и
третий. Во втором оказалось 6 индивидов, в третьем - 19.
Таким образом, мы рассредоточили врачей-лаборантов,
опираясь на один из важных, ведущих показателей их про фессиональной 11РИГОДНОСТИ: раСГlределение внимания с претензией на совершенствование его.
Этот процесс не окончательный, процесс детализации
Гlрофессиональной пригоднос"Ги можно продолжить: разо
бьем совокупность на 4 кластера. В этом случае к первому
кластеру относится уже 24 индивида, к трем остальным от
несены: один, один и шесть индивидов соответственно, что
дает прямо противоположный результат. Дальнейшее уве
личение числа кластеров совсем не несет практически ника
кой содержательной информации, раСГIЫЛЯЯ COBOKyrlHOCTb
по одному-два индивида в каждом кластере. |
. |
Резюме:данную выборку наиболее целесообразно раз
делить на три кластера, но не исключено деление на два и
'Оl Медицинская статистика
четыре кластера, все зависит от точки зрения эксперимен
татора и требо~аний ситуации |
.......... .. .. |
. .. ... ..... .. . . ... . ... |
Упражнение29. • • • • • • • • • • • • • • • • • • • • • •
Выявление кластеров эмпирической выборки с исполь-
зованием пакета SPSS
условие: то же.
Решение:
1. Запустим пакет SPSS и введем данные по трем при
знакам в отдельные столбцы, присвоив переменным назва
ния Уаг 1-3.
2. Выполним стандартизацию данных. (Статистики) -
(Подытожить) - (Описательные статистики):
•(Переменные) - Уаг 1-3;
•(Сохранить стандартизованные величины как пере
менные).
Вокне (Просмотр результатов) появились три новые
стандартизованные переменные. Переименуем их (Опреде
ление переменной). Сохраним данные в файле.
з. Осуществим агломеративную кластеризацию:
•(Статистики) - (Классифицировать) - (Иерархичес
кий кластер).
•В открывшемся окне (Иерархическая кластеризация)
зададим (Переменные) - Vаг1-З, установим фла
жок (Кластер) - (Случаи).
•Нажав (Графики••• ), установим (Дендрограмма) -
(Продолжить), возвратимся в основное окно.
•Нажав (Метод), выберем метод кластеризации и раз
мерность расстояния. Выберем метод (Ближайшего
соседа), (Мера), (Интервальная ,шкала), (Евклидово
расстояние).
Нажав (Продолжить), возвратимся в предыдущее окно:
•НаЖмем кнопку (Статистики). Оставим флажок в (По
рядок обьединения. Можно фиксирова"гь принадлеж
ности к кластерам, причем сразу для всего диапазо
на рещений: (Принадлежность к кластерам). Поста-