5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Медицинская_статистика_Жижин_К_С_
.pdfГлава 9, MHoroMepHble статистические методы |
101 |
вив флажок (Диапазон решений), зададим диапазон,
указав значения: от 2 до 4.
•Нажав (Продолжить), возвратимся в основное окно,
жмем ОК.
4. В окне (Просмотр результатов) - результаты класте ризации и (Дендрограмма). Ее вид ничем не отличается от
таковой в пакете Statistica, может быть, только с точки зре
ния художника-графика рисунок несколько примитивнее.
Но здесь приведены таблицы (Порядок объединения) и
(Принадлежность к кластерам):
•Для дивизивной КЛ,астеризации в пункте главного
меню (Статистики) выберем (Классифицировать) -
(Кластерный анализ методом k-средних).
6.В открывшемся диалоговом окне метода:
• зададим (Переменные) - Var 1-3;
•установим (Метод) в поле (Итерировать и классифи
цировать);
•зададим (Количество кластеров) - два;
•нажав кнопку (Итерировать), укажем (Максимальное
число итераций), наl~ример, 15 (этот параметр зада-
ется в пределах от 1 до 999); |
. |
•оставим значение «О» дЛЯ критерия сходимости, он
принимает значение от О до 1, понимаемое так, что
итерации прекращаются в случае, если очередная из
них не перемещает ни один из центров на расстоя
ние большее, чем значение критерия;
•нажав (Сохранить), (Принадлежность к кластерам),
сохраняем полученные результаты;
•нажимаем кнопки (Параметры), (Таблица результатов
проверки качества разбиения с помощью ANOVA) и
(Информация по кластеру для каждого случая).
7.Выполнив кластеризацию для двух кластеров, повто рим ее для трех, а затем - ДЛЯ чеtырех, пяти, десяти клас теров, изменяя для этого поле (Количество кластеров).
8.В окне (Просмотр результатов) проанализируем ито
ги разбиения соответственно на два, три, четыре и более
кластеров:
ttO
•таблицы мnal Cluster Centers (Окончательные центры
кластеров). Ouster Membership (Принaд.neжнoc1Ъ к кла
стерам), Number of Cases in each Cluster (Количество
случаев в каждом кластере) и ANOVA (Результаты про
верки качecrвa разбиения с помощью ANOVA).
Результаты кластеризации получились аналогичными
пакету Statistica.
Резюме: выборку целесообразно разделить на 2 или 3
кластера. Большее число ,кластеров искажает ситуацию и
вносит в кластеризацию полную неопределенность. Если
результат исследователя почему-то не устраивает, то стоит
внести коррекцию в процедуру аНaJlИза за счет увеличения
объема 'выборки и проведения повторной кластеризации.
• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •
Упражнение30. • • • • • • • • • • • • • • • • • • • • • •
Проведение к.naaepHoгo анanиза эмпирических даН-
,
ных В разнотипных шкanах.
Условие. Необходимо определить, что является движу
щим мотивом выбора конкретной профессиональной вра чебной направленности. Для этой цели 30 студентов со вто
рого по шестой курс трех факультетов медицинскогоуни
верситета были сгруппированы в следующую выборку.
Группировка велась по следующим признакам:
Тип темперамента по д. Кейрс;и: |
' |
||
• |
SP - |
Дионисий. |
|
• |
SJ - |
ЭпиметеЙ. |
|
• |
NF - |
Аполлон. |
|
• |
NT - |
Прометей. |
|
• |
НО - |
не определен. |
|
Факуn"тет:
• лпФ - лече6но-профилактическиЙ.
• ПФ - педиатрический.
• МПФ - медико-профилактическиЙ.
• _пв - процент встречаемости данного вида темпера
мента по отношению к референтной группе.
Перечен" и количественные характеристики некоторых
профессионально значимых функций врача (ПЗФ):
Глава 9.MHorollePНble статистические lIетоды |
111 |
1.Кинестезия.
2.Глазомер.
з. Срывы дифференцировочной реакции на сложный световой раздражитель.
4. Число ошибок по корректурной таблице Анфимова.
5. Реакция на движущийся объект.
ВР - возраст (полных лет);
П - пол (Ю - юноши, Д - девушки).
Определить: на какие группы наиболее целесообразно
разделить выборку студентов по признаку сходства пока
занных ими результатов?
|
... |
|
... |
|
!s |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
:z:: |
|
|
s |
|
|
|
|
|
|
|
|
|
• |
|
J! |
|
z |
|
|
ПЗФ |
|
|
|
|
|
~ |
|
JI |
|
•~~ |
|
|
|
|
|
|
|
N! |
.а |
|
|
|
|
|
|
|
|
|
||
Q. |
|
~. |
|
|
|
|
|
|
Возраст |
Пол |
||
|
• |
|
~ |
|
1: |
|
|
|
|
|
|
|
|
1: |
|
.а |
|
111 |
|
|
|
|
|
|
|
|
~ |
|
|
|
|
|
|
|
|
|
||
|
• |
|
е |
|
о |
к |
г |
с |
ч |
р |
|
|
|
~ |
|
|
u |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
||
1 |
SP |
|
ЛПФ |
|
19 |
3 |
1 |
4 |
5 |
2 |
19 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
SP |
|
ЛПФ |
|
20 |
4 |
2 |
3 |
5 |
1 |
21 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
SP |
|
ПФ |
|
17 |
4 |
1 |
5 |
3 |
2 |
18 |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
SJ |
|
ПФ |
|
15 |
2 |
3 |
5 |
4 |
1 |
24 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
НО |
|
МПФ |
|
7 |
1 |
2 |
4 |
5 |
3 |
2з |
ю |
6 |
SJ |
|
МПФ |
|
21 |
3 |
1 |
4 |
5 |
2 |
22 |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
7 |
NF |
|
МПФ |
|
15 |
4 |
3 |
1 |
5 |
2 |
19 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
8 |
SP |
|
ЛПФ |
|
16 |
5 |
1 |
4 |
3 |
2 |
22 |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
NF |
|
ЛПФ |
|
15 |
4 |
3 |
1 |
5 |
2 |
21 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
NF |
|
ПФ |
|
. 14 |
2 |
1 |
4 |
5 |
2 |
22 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
SP |
|
ПФ |
|
17 |
2 |
1 |
3 |
4 |
3 |
23 |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
12 |
NТ |
|
Мr1Ф |
|
18 |
3 |
2 |
4 |
5 |
4 |
24 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
13 |
NT |
|
ЛПФ |
|
19 |
5 |
1 |
3 |
4 |
2 |
20 |
ю |
14 |
но |
|
ЛПФ |
|
2 |
4 |
,.. |
1 |
5 |
2 |
19 |
д |
|
|
~ |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
15 |
NF |
|
МПФ |
|
4 |
3 |
1 |
4 |
5 |
3 |
18 |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
16 |
НО |
|
МПФ |
|
20 |
3 |
1 |
4 |
5 |
2 |
22 |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
17 |
НО |
|
ПФ |
|
16 |
3 |
1 |
4 |
5 |
4 |
19 |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
18 |
NF |
|
ПФ |
|
18 |
2 |
1 |
4 |
5 |
3 |
19 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
19 |
SP |
|
ЛПФ |
|
12 |
3 |
2 |
4 |
5 |
2 |
2з |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
20 |
SP |
|
МПФ |
|
18 |
5 |
3 |
2 |
4 |
2 |
24 |
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
11:1 |
|
|
|
|
|
|
|
|
МеАицинская статистика |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
Окончание табл. |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ф |
|
li· |
|
|
|
|
|
|
|
|
|
|
|
|
!I: |
|
::s: |
|
|
|
|
|
|
|
|
|
|
|
|
:1 |
~ |
|
|
ПЗФ |
|
|
|
|
||
|
|
|
|
с |
с |
|
|
|
|
|
|
|
||
|
NI |
|
•а. |
~ |
_~ |
|
|
|
|
|
|
Возраст |
Пол |
|
|
|
|
|
ф |
• |
|
|
|
|
|
|
|
|
|
|
|
|
|
:1 |
ID |
|
|
|
|
|
|
|
|
|
|
|
|
|
о |
к |
г |
с |
ч |
р |
|
|
|||
|
|
|
|
~ |
е |
(.) |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
21 |
|
|
SJ |
МПФ |
16 |
|
2 |
1 |
4 |
5 |
2 |
18 |
д |
|
22 |
|
|
SJ |
пф |
15 |
|
3 |
1 |
4 |
5 |
3 |
22 |
ю |
|
Тзf |
|
но |
ЛПФ |
8 |
|
3 |
2 |
4 |
5 |
4 |
21 |
Д |
|
|
24 |
|
|
SJ |
ЛПФ |
13 |
|
3 |
1 |
4 |
5 |
5 |
23 |
д |
|
25 |
|
|
NT |
ПФ |
14 |
|
3 |
1 |
4 |
5 |
4 |
18 |
ю |
|
26 |
|
|
SJ |
ПФ |
20 |
|
4 |
1 |
2 |
5 |
3 |
20 |
д |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
27 |
|
|
ЭР |
МПФ |
16 |
|
1 |
2 |
3 |
5 |
1 |
21 |
Д |
|
28 |
|
|
но |
МПФ |
17 |
|
4 |
1 |
5 |
3 |
2 |
22 |
ю |
|
29 |
|
|
SJ |
ПФ |
7 |
|
3 |
2 |
4 |
5 |
3 |
25 |
ю |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
30 |
|
|
SP |
ПФ |
15 |
|
3 |
1 |
4 |
5 |
3 |
22 |
Д |
Решение:
Данная задача содержит некоторые осложнения анали
тического процесса: особенность в наличии разнотипных
измерительных шкал.
Действительно, эдесь и интервальные, и ранговые, и но
минальные, и дихотомические.
Показатели ПЗФ вообще представляют собой «сырые
баллы., требующие ранжирования по каждому столбцу.
Здесь явно не подходят приемы кластеризации как по
иск меры сходства или различия, используемые при работе
с однородными шкалами. Из таких сложных ситуаций есть
два корректных выхода:
1. Воспользоваться приемом работы со смешанными
шкалами, но, поскольку такой подход не реализован в па
кетах, рассматриваемых нами, надо предварительно само
стоятельно вычислять матрицу попарных расстояний, а ра
бота эта весьма трудоемка. Ее можно облегчить, но, опять
же, для этого надо как минимум иметь навык программиро
вания.
Глава 9. Многомерные статистические методы |
111 |
2. Можно сформировать дихотомическую шкалу. Этот
путь тоже трудоемкий, однако он все же· позволяет исполь
зовать Гlредставленные статистические пакеты.
В данной ситуации нам ничего не остается как выбирать
второй путь. Смиримся с некоторым упрощением исходных эмпирических данных и соответственно с потерей некото
рой части содержащейся в них информации.
Итак, для того, чтобы сформировать дихотомическую
шкалу, 11рименим прием (Жаккара), реализованный в паке
те SPSS, но это совершенно не фатально, и мы могли бы взять любую другую методику, предназначенную для ис
пользования с дихотомическими шкалами
Перекодировка осуществляется встроенными в статис
тические пакеты подпрограммами:
1. Запустим пакет SPSS и нажмем кнопку (Ввести дан ные). Вводим пошагово, совместно с их дихотомизациеЙ.
Признак темперамента - номинальный, имеет пятька
тегорий и надо представить каждую отдельно: «1» будет
означать ее наличие, а «О» - отсутствие. Но сначала вве
дем в первый столбец данные по признаку темперамента,
закодировав их так: 1 - SP, 2 - SJ, 3 - NF, 4 - NT, 5 - НО, учитывая капризность работы программ с буквен
ными русскоязычными (и даже английскими) сокращения
ми, целесообразнее выполнить кодировку числами.
После чего копируем данный столбец в последующие
четыре переменные, резервируя место под другие дихото
мические переменные, соответ~вующие категориям призна
ка - темперамент.
Данный пакет позволяет достаточно легко перекодиро
вать данные. Выберем (ПереКОДИРОА\17"Ь) - (В те же самые
переменные). Перекодируем переменную Var1, которая бу
дет соответствовать дихотомическому признаку SP, нажав Old and New Values (Старые и новые значения).
Укажем (Старое значение) «1», и Новое значение) -
«1 ». Нажмем кнопку (Добавить), введя в число преобразо
ваний. Необходимостименять значение «1» на такое же зна-
114 |
Медицинская статистика |
чение «1) на самом деле не было, но иначе не показать про
цедуру кодирования переменной темперамент.
Далее - (Все остальные значения), в (Новое значение)
введем «О» и (Добавить).
Нажав (Продолжить) и ОК, выполним перекодирование,
результаты которого автоматически вводятся в столбец пе ременной Vaг 1, которая стала дихотомической.
Аналогично перекодируем Var 2, (Преобразовать) -
(Перекодировать) - Into Some VariabIes (8 те же самые пе
ременные), заменим в СI"lиске Var 1 на Var 2.
Нажав (Старые и новые значения), укажем в поле (Ста
рое значение) «2»,
жмем (Добавить).
а в поле (Новое значение) - « 1» и на
Старый вариант (1-1) удалим кнопкой (Переместить) и
выполним перекодирование. После перекодирования всех
переменных, соответствующих категориям темперамента,
данные по признаку «темпераменп) перепишутся следующим
образом (на примере испытуемых с номерами 1 и 4):
|
SP |
SJ |
NF |
NТ |
но |
1 |
1 |
о |
о |
о |
о |
4 |
о |
1 |
о |
о |
о |
Следующий признак «факультеп) |
псевдоранговыЙ. |
Для дихотомизации введем аналогично отдельные дихото
мические признаки для каждой из его градаций:
|
|
ЛПФ |
ПФ |
МПФ |
|
|
|
|
|
|
|
1 |
1 |
о |
о |
||
|
|
|
|
|
|
4 |
о |
о |
. 1 |
|
|
|
|
|
|
||
Признак |
псевдоинтервальныЙ. Для дихотомизации |
разделим всю область принимаемых им значений на три гра
дации: от О до 10 - |
(низкий), от 11 до 21 - (средний ).22 и |
более - (высокий). |
. |
Анализ таблицы показывает, что процентное соотноше
ние Гlризнаков не выходит за пределы двух первых града-
Глава 9" MHoroMepHble аатистическме методы |
115 |
ций, поэтому можно ограничиться только двумя градация ми. Введем для них дихотомические признаки (пример пр~
веден для испытуемых 1 и 4):
Состав следующей группы признаков псевдоранговый~ как и признак, однако количество градаций у каждого из
них равно пяти. Соответственно можно ввести отдельный
дихотомический признак для каждой из градаций, но из со
держательных соображений количество градаций лучше сократить следующим образом:
NI |
средний |
низкий |
|
|
|
1 |
1 |
О |
4 |
О |
1 |
|
|
|
•для признаков К, С и Р в выборах испытуемых фигу
рируют все пять исходных градаций, отсюда к пер
вой градации - ранг 1, ко второй - ранги 2 и З, к
тре"rt_ей - |
ранги 4 и 5 (пример переменной К у испы |
|||||
туемых 1 и 2): |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
К=1 |
к =2,3 |
К=4,5 |
|
|
|
|
|
|
|
|
|
1 |
о |
1 |
о |
|
|
|
2 |
о |
о |
1 |
|
•ДЛЯ Г - ранги 4 и 5 в выборах испытуемых не фигу
РИРУЮТ, отсюда к первой градации отнесем ранг 1,
КО второй - |
2 третьей - |
3 (для испытуемых 1 и 4): |
|||
|
|
|
|
|
|
|
|
Г=1 |
Г=2 |
г=з |
|
|
|
|
|
|
|
|
1 |
1 |
о |
о |
|
|
4 |
о |
о |
1 |
|
•ДЛЯ Ч - ранги 1 и 2 в выборах испытуемых не фигу
РИРУIQТ, |
отсюда к первой градации отнесем ранг З, |
. |
. |
ко второй - 4, третьей - 5 (ДЛЯ испытуемых 1 и 4):
". |
Медицинская статистика |
|
NI Ч=3 Ч=4 Ч=5
1 |
I |
О |
О |
1 |
4 |
О |
1 |
О |
Теперь каждая из переменных К, Г,С,Ч, Р представлена
дихотомическими приэнаками.
Признак Возраст - интервальный; выполним -его -дихо
томизацию аналогично признаку %соотношения, выбрав три
градаци":t: 18-20,21-23 'и 24-25. Затем введем отдельные дихотомические признаки для каждой из этих градаций (при
мер приведен ДЛЯ испытуемых 1 и 4):
Ng |
в = 18,19, |
В =21, 22, |
В = 24,25 |
|
20 |
23 |
|
1 |
1 |
О |
О |
4 |
О |
О |
1 |
Признак П (пол) - дихотомический. Закодируем его
значения так: Ю - 1, Д - |
О (для испытуемых 1 и 3): . |
||||
|
|
|
|
|
|
|
N2 |
|
П |
|
|
|
|
|
|
|
|
|
1 |
|
О |
|
|
|
3 |
|
1 |
|
|
|
|
|
|
|
|
Дихотомизация закончена; число переменных( в первич
ной выборке уменьшилось до 29), а в модификациях увели
чилось.
3. Дважды щелкаем (Определение переменной), задав:
• |
(Имя переменной) - Var 1-29; |
• |
(Тип шкалы) - (Номинальная); |
•(Тип данных):
Туре (Тип) - (Числовой),
-(Ширина) -1,
- (Количество знаков после запятой) - О;
•в (Формат столбца) задаем параметры:
-(Ширина столбца) - 5,
-(Выравнивание) - (По центру).
Глава 9. Многомерные статистические методы |
tt7 |
4. Выполним агломеративную кластеризацию случаев,
задав ряд параметров:
•(Метод) - Furthest neighbor (Дальнего соседа);
•(Мера) - (Дихотомическая шкала);
•(Коэффициент Жаккара);
• (Диапазон решений) - от 2 до 7 кластеров.
5. В окне (Просмотр результатов) получаем, в частно
сти, таблицу (Принaдnежность к кластерам)., По результа
там агломеративной кластеризации можно сделать вывод,
что наиболее пеРСllективным является разделение исходно
го множества объектов на пять кластеров.
б. Выполним ДИ8ИЗИВНУЮ кластеризацию, меняя число
кластеров: 2, З, 4, 5, б и 7.
7. В окне (Просмотр результатов) видим итоги класте
ризации: (Окончательные центры кластеров), (Принадпеж
ность к кластерам), (Количество случаев в каждом класте
ре) и ANOVA (Результаты проверки качества разбиения с
помощью ANOVд). В частности:
Cluster |
1 |
17 |
|
2 |
13 |
||
|
|||
|
|
|
|
Cluster .1t---~--+--1~----t |
|||
|
|
|
|
|
|
|
|
|
1 |
6 |
|
Cluster |
2 |
16 |
|
3 |
4 |
||
|
|||
|
4 |
4 |
|
|
|
|
|
|
1 |
13 |
|
|
2 |
4 |
|
Cluster |
3 |
5 |
|
|
4 |
4 |
|
|
5 |
4 |
|
|
|
|
|
Медицинская статистика |
|
|
|
|
|
|
|
|
Для семи кластеров: |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
1 |
10 |
|
|
|
|
|
|
|
|
|
|
|
|
2 |
2 |
|
|
|
|
|
3 |
5 |
|
|
Cluster |
|
4 |
3 |
|
|
|
|
|
|
5 |
7 |
|
|
|
|
|
6 |
2 |
|
|
|
|
|
7 |
1 |
|
Итак, предпочтительным является разделение выборки
на пять кластеров. Такое разбиение, во-первых, выделяет наибольшее число индивидов по главному результирующе
му приэнаку классификации"'" «тип темперамента по Д. Кей си», во-вторых, увеличение числа кластеров только дробит
выборку, и увеличение числа кластеров до 10-20
аналитика. . . . . к полнейшему абсурду. . . .. . . . . . .
. . . . . . . . . . . . .
2. ДИСКРИМИНАНТНЫЙ АНАЛИЗ
приводит
. .. . ..
Основы диc"pu.м.иHaHmHoгo анализа
Кластерный анализ rюзволяет разделить эмпирическую
выборку на несколько классов (кластеров), однако не дает
, - '
ни правил, ни четких кри,!ериев оценки качества класси
фикации. В то же время и правила, и критерии важны
прежде всего в вопросах диагностики редких, нетипичных
патологич~ских процессов, симптоматика которых весь
ма размыта. И особенно в процессе оказания ургентной
(экстренной) медицинской помощи, когда у врача на пе pe~op вариантов лечебно-диагностической тактики счи
танные минуты.
Для решения подобных задач и сущес~вует дискрими нантный анализ. И хотя дискриминантный и кластерный
анализы близки по сути (направлены на решение задач
классификации), но подходами к классификации прин-
о.
ципиально различаются.
Дискриминантный анализ, как и кластерный анализ, направлен на разделение выборки на ряд кластеров, но его