Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Медицинская_статистика_Жижин_К_С_

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
8.17 Mб
Скачать

Глава 9, MHoroMepHble статистические методы

101

вив флажок (Диапазон решений), зададим диапазон,

указав значения: от 2 до 4.

Нажав (Продолжить), возвратимся в основное окно,

жмем ОК.

4. В окне (Просмотр результатов) - результаты класте­ ризации и (Дендрограмма). Ее вид ничем не отличается от

таковой в пакете Statistica, может быть, только с точки зре­

ния художника-графика рисунок несколько примитивнее.

Но здесь приведены таблицы (Порядок объединения) и

(Принадлежность к кластерам):

Для дивизивной КЛ,астеризации в пункте главного

меню (Статистики) выберем (Классифицировать) -

(Кластерный анализ методом k-средних).

6.В открывшемся диалоговом окне метода:

зададим (Переменные) - Var 1-3;

установим (Метод) в поле (Итерировать и классифи­

цировать);

зададим (Количество кластеров) - два;

нажав кнопку (Итерировать), укажем (Максимальное

число итераций), наl~ример, 15 (этот параметр зада-

ется в пределах от 1 до 999);

.

оставим значение «О» дЛЯ критерия сходимости, он

принимает значение от О до 1, понимаемое так, что

итерации прекращаются в случае, если очередная из

них не перемещает ни один из центров на расстоя­

ние большее, чем значение критерия;

нажав (Сохранить), (Принадлежность к кластерам),

сохраняем полученные результаты;

нажимаем кнопки (Параметры), (Таблица результатов

проверки качества разбиения с помощью ANOVA) и

(Информация по кластеру для каждого случая).

7.Выполнив кластеризацию для двух кластеров, повто­ рим ее для трех, а затем - ДЛЯ чеtырех, пяти, десяти клас­ теров, изменяя для этого поле (Количество кластеров).

8.В окне (Просмотр результатов) проанализируем ито­

ги разбиения соответственно на два, три, четыре и более

кластеров:

ttO

таблицы мnal Cluster Centers (Окончательные центры

кластеров). Ouster Membership (Принaд.neжнoc1Ъ к кла­

стерам), Number of Cases in each Cluster (Количество

случаев в каждом кластере) и ANOVA (Результаты про­

верки качecrвa разбиения с помощью ANOVA).

Результаты кластеризации получились аналогичными

пакету Statistica.

Резюме: выборку целесообразно разделить на 2 или 3

кластера. Большее число ,кластеров искажает ситуацию и

вносит в кластеризацию полную неопределенность. Если

результат исследователя почему-то не устраивает, то стоит

внести коррекцию в процедуру аНaJlИза за счет увеличения

объема 'выборки и проведения повторной кластеризации.

• • • • • • • • • • • • • • • • • • • • • • •

Упражнение30. • • • • • • • • • • • • • • • • • • • • • •

Проведение к.naaepHoгo анanиза эмпирических даН-

,

ных В разнотипных шкanах.

Условие. Необходимо определить, что является движу­

щим мотивом выбора конкретной профессиональной вра­ чебной направленности. Для этой цели 30 студентов со вто­

рого по шестой курс трех факультетов медицинскогоуни­

верситета были сгруппированы в следующую выборку.

Группировка велась по следующим признакам:

Тип темперамента по д. Кейрс;и:

'

SP -

Дионисий.

 

SJ -

ЭпиметеЙ.

 

NF -

Аполлон.

 

NT -

Прометей.

 

НО -

не определен.

 

Факуn"тет:

лпФ - лече6но-профилактическиЙ.

ПФ - педиатрический.

МПФ - медико-профилактическиЙ.

• _пв - процент встречаемости данного вида темпера­

мента по отношению к референтной группе.

Перечен" и количественные характеристики некоторых

профессионально значимых функций врача (ПЗФ):

Глава 9.MHorollePНble статистические lIетоды

111

1.Кинестезия.

2.Глазомер.

з. Срывы дифференцировочной реакции на сложный световой раздражитель.

4. Число ошибок по корректурной таблице Анфимова.

5. Реакция на движущийся объект.

ВР - возраст (полных лет);

П - пол (Ю - юноши, Д - девушки).

Определить: на какие группы наиболее целесообразно

разделить выборку студентов по признаку сходства пока­

занных ими результатов?

 

...

 

...

 

!s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

:z::

 

 

s

 

 

 

 

 

 

 

 

 

J!

 

z

 

 

ПЗФ

 

 

 

 

 

~

 

JI

 

~~

 

 

 

 

 

 

N!

 

 

 

 

 

 

 

 

 

Q.

 

~.

 

 

 

 

 

 

Возраст

Пол

 

 

~

 

1:

 

 

 

 

 

 

 

 

1:

 

 

111

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

е

 

о

к

г

с

ч

р

 

 

 

~

 

 

u

 

 

 

 

 

 

 

 

 

 

 

 

 

1

SP

 

ЛПФ

 

19

3

1

4

5

2

19

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

2

SP

 

ЛПФ

 

20

4

2

3

5

1

21

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

3

SP

 

ПФ

 

17

4

1

5

3

2

18

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

4

SJ

 

ПФ

 

15

2

3

5

4

1

24

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

5

НО

 

МПФ

 

7

1

2

4

5

3

ю

6

SJ

 

МПФ

 

21

3

1

4

5

2

22

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

7

NF

 

МПФ

 

15

4

3

1

5

2

19

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

8

SP

 

ЛПФ

 

16

5

1

4

3

2

22

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

9

NF

 

ЛПФ

 

15

4

3

1

5

2

21

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

10

NF

 

ПФ

 

. 14

2

1

4

5

2

22

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

11

SP

 

ПФ

 

17

2

1

3

4

3

23

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

Мr1Ф

 

18

3

2

4

5

4

24

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

13

NT

 

ЛПФ

 

19

5

1

3

4

2

20

ю

14

но

 

ЛПФ

 

2

4

,..

1

5

2

19

д

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

15

NF

 

МПФ

 

4

3

1

4

5

3

18

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

16

НО

 

МПФ

 

20

3

1

4

5

2

22

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

17

НО

 

ПФ

 

16

3

1

4

5

4

19

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

18

NF

 

ПФ

 

18

2

1

4

5

3

19

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

19

SP

 

ЛПФ

 

12

3

2

4

5

2

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

20

SP

 

МПФ

 

18

5

3

2

4

2

24

Д

 

 

 

 

 

 

 

 

 

 

 

 

 

11:1

 

 

 

 

 

 

 

 

МеАицинская статистика

 

 

 

 

 

 

 

 

 

 

 

 

Окончание табл.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ф

 

li·

 

 

 

 

 

 

 

 

 

 

 

!I:

 

::s:

 

 

 

 

 

 

 

 

 

 

 

:1

~

 

 

ПЗФ

 

 

 

 

 

 

 

 

с

с

 

 

 

 

 

 

 

 

NI

 

а.

~

_~

 

 

 

 

 

 

Возраст

Пол

 

 

 

 

ф

 

 

 

 

 

 

 

 

 

 

 

 

 

:1

ID

 

 

 

 

 

 

 

 

 

 

 

 

о

к

г

с

ч

р

 

 

 

 

 

 

~

е

(.)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

21

 

 

SJ

МПФ

16

 

2

1

4

5

2

18

д

 

22

 

 

SJ

пф

15

 

3

1

4

5

3

22

ю

 

Тзf

 

но

ЛПФ

8

 

3

2

4

5

4

21

Д

 

24

 

 

SJ

ЛПФ

13

 

3

1

4

5

5

23

д

 

25

 

 

NT

ПФ

14

 

3

1

4

5

4

18

ю

 

26

 

 

SJ

ПФ

20

 

4

1

2

5

3

20

д

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27

 

 

ЭР

МПФ

16

 

1

2

3

5

1

21

Д

 

28

 

 

но

МПФ

17

 

4

1

5

3

2

22

ю

 

29

 

 

SJ

ПФ

7

 

3

2

4

5

3

25

ю

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

 

 

SP

ПФ

15

 

3

1

4

5

3

22

Д

Решение:

Данная задача содержит некоторые осложнения анали­

тического процесса: особенность в наличии разнотипных

измерительных шкал.

Действительно, эдесь и интервальные, и ранговые, и но­

минальные, и дихотомические.

Показатели ПЗФ вообще представляют собой «сырые

баллы., требующие ранжирования по каждому столбцу.

Здесь явно не подходят приемы кластеризации как по­

иск меры сходства или различия, используемые при работе

с однородными шкалами. Из таких сложных ситуаций есть

два корректных выхода:

1. Воспользоваться приемом работы со смешанными

шкалами, но, поскольку такой подход не реализован в па­

кетах, рассматриваемых нами, надо предварительно само­

стоятельно вычислять матрицу попарных расстояний, а ра­

бота эта весьма трудоемка. Ее можно облегчить, но, опять

же, для этого надо как минимум иметь навык программиро­

вания.

Глава 9. Многомерные статистические методы

111

2. Можно сформировать дихотомическую шкалу. Этот

путь тоже трудоемкий, однако он все же· позволяет исполь­

зовать Гlредставленные статистические пакеты.

В данной ситуации нам ничего не остается как выбирать

второй путь. Смиримся с некоторым упрощением исходных эмпирических данных и соответственно с потерей некото­

рой части содержащейся в них информации.

Итак, для того, чтобы сформировать дихотомическую

шкалу, 11рименим прием (Жаккара), реализованный в паке­

те SPSS, но это совершенно не фатально, и мы могли бы взять любую другую методику, предназначенную для ис­

пользования с дихотомическими шкалами

Перекодировка осуществляется встроенными в статис­

тические пакеты подпрограммами:

1. Запустим пакет SPSS и нажмем кнопку (Ввести дан­ ные). Вводим пошагово, совместно с их дихотомизациеЙ.

Признак темперамента - номинальный, имеет пятька­

тегорий и надо представить каждую отдельно: «1» будет

означать ее наличие, а «О» - отсутствие. Но сначала вве­

дем в первый столбец данные по признаку темперамента,

закодировав их так: 1 - SP, 2 - SJ, 3 - NF, 4 - NT, 5 - НО, учитывая капризность работы программ с буквен­

ными русскоязычными (и даже английскими) сокращения­

ми, целесообразнее выполнить кодировку числами.

После чего копируем данный столбец в последующие

четыре переменные, резервируя место под другие дихото­

мические переменные, соответ~вующие категориям призна­

ка - темперамент.

Данный пакет позволяет достаточно легко перекодиро­

вать данные. Выберем (ПереКОДИРОА\17"Ь) - (В те же самые

переменные). Перекодируем переменную Var1, которая бу­

дет соответствовать дихотомическому признаку SP, нажав Old and New Values (Старые и новые значения).

Укажем (Старое значение) «1», и Новое значение) -

«1 ». Нажмем кнопку (Добавить), введя в число преобразо­

ваний. Необходимостименять значение «1» на такое же зна-

114

Медицинская статистика

чение «1) на самом деле не было, но иначе не показать про­

цедуру кодирования переменной темперамент.

Далее - (Все остальные значения), в (Новое значение)

введем «О» и (Добавить).

Нажав (Продолжить) и ОК, выполним перекодирование,

результаты которого автоматически вводятся в столбец пе­ ременной Vaг 1, которая стала дихотомической.

Аналогично перекодируем Var 2, (Преобразовать) -

(Перекодировать) - Into Some VariabIes (8 те же самые пе­

ременные), заменим в СI"lиске Var 1 на Var 2.

Нажав (Старые и новые значения), укажем в поле (Ста­

рое значение) «2»,

жмем (Добавить).

а в поле (Новое значение) - « и на­

Старый вариант (1-1) удалим кнопкой (Переместить) и

выполним перекодирование. После перекодирования всех

переменных, соответствующих категориям темперамента,

данные по признаку «темпераменп) перепишутся следующим

образом (на примере испытуемых с номерами 1 и 4):

 

SP

SJ

NF

но

1

1

о

о

о

о

4

о

1

о

о

о

Следующий признак «факультеп)

псевдоранговыЙ.

Для дихотомизации введем аналогично отдельные дихото­

мические признаки для каждой из его градаций:

 

 

ЛПФ

ПФ

МПФ

 

 

 

 

 

 

1

1

о

о

 

 

 

 

 

 

4

о

о

. 1

 

 

 

 

 

Признак

псевдоинтервальныЙ. Для дихотомизации

разделим всю область принимаемых им значений на три гра­

дации: от О до 10 -

(низкий), от 11 до 21 - (средний ).22 и

более - (высокий).

.

Анализ таблицы показывает, что процентное соотноше­

ние Гlризнаков не выходит за пределы двух первых града-

Глава 9" MHoroMepHble аатистическме методы

115

ций, поэтому можно ограничиться только двумя градация­ ми. Введем для них дихотомические признаки (пример пр~­

веден для испытуемых 1 и 4):

Состав следующей группы признаков псевдоранговый~ как и признак, однако количество градаций у каждого из

них равно пяти. Соответственно можно ввести отдельный

дихотомический признак для каждой из градаций, но из со­

держательных соображений количество градаций лучше сократить следующим образом:

NI

средний

низкий

 

 

 

1

1

О

4

О

1

 

 

 

для признаков К, С и Р в выборах испытуемых фигу­

рируют все пять исходных градаций, отсюда к пер­

вой градации - ранг 1, ко второй - ранги 2 и З, к

тре"rt_ей -

ранги 4 и 5 (пример переменной К у испы­

туемых 1 и 2):

 

 

 

 

 

 

 

 

 

 

 

 

 

К=1

к =2,3

К=4,5

 

 

 

 

 

 

 

 

1

о

1

о

 

 

2

о

о

1

 

ДЛЯ Г - ранги 4 и 5 в выборах испытуемых не фигу­

РИРУЮТ, отсюда к первой градации отнесем ранг 1,

КО второй -

2 третьей -

3 (для испытуемых 1 и 4):

 

 

 

 

 

 

 

 

Г=1

Г=2

г=з

 

 

 

 

 

 

 

1

1

о

о

 

 

4

о

о

1

 

ДЛЯ Ч - ранги 1 и 2 в выборах испытуемых не фигу­

РИРУIQТ,

отсюда к первой градации отнесем ранг З,

.

.

ко второй - 4, третьей - 5 (ДЛЯ испытуемых 1 и 4):

".

Медицинская статистика

 

NI Ч=3 Ч=4 Ч=5

1

I

О

О

1

4

О

1

О

Теперь каждая из переменных К, Г,С,Ч, Р представлена

дихотомическими приэнаками.

Признак Возраст - интервальный; выполним -его -дихо­

томизацию аналогично признаку %соотношения, выбрав три

градаци":t: 18-20,21-23 24-25. Затем введем отдельные дихотомические признаки для каждой из этих градаций (при­

мер приведен ДЛЯ испытуемых 1 и 4):

Ng

в = 18,19,

В =21, 22,

В = 24,25

 

20

23

 

1

1

О

О

4

О

О

1

Признак П (пол) - дихотомический. Закодируем его

значения так: Ю - 1, Д -

О (для испытуемых 1 и 3): .

 

 

 

 

 

 

 

N2

 

П

 

 

 

 

 

 

 

1

 

О

 

 

3

 

1

 

 

 

 

 

 

 

 

Дихотомизация закончена; число переменных( в первич­

ной выборке уменьшилось до 29), а в модификациях увели­

чилось.

3. Дважды щелкаем (Определение переменной), задав:

(Имя переменной) - Var 1-29;

(Тип шкалы) - (Номинальная);

(Тип данных):

Туре (Тип) - (Числовой),

-(Ширина) -1,

- (Количество знаков после запятой) - О;

в (Формат столбца) задаем параметры:

-(Ширина столбца) - 5,

-(Выравнивание) - (По центру).

Глава 9. Многомерные статистические методы

tt7

4. Выполним агломеративную кластеризацию случаев,

задав ряд параметров:

(Метод) - Furthest neighbor (Дальнего соседа);

(Мера) - (Дихотомическая шкала);

(Коэффициент Жаккара);

(Диапазон решений) - от 2 до 7 кластеров.

5. В окне (Просмотр результатов) получаем, в частно­

сти, таблицу (Принaдnежность к кластерам)., По результа­

там агломеративной кластеризации можно сделать вывод,

что наиболее пеРСllективным является разделение исходно­

го множества объектов на пять кластеров.

б. Выполним ДИ8ИЗИВНУЮ кластеризацию, меняя число

кластеров: 2, З, 4, 5, б и 7.

7. В окне (Просмотр результатов) видим итоги класте­

ризации: (Окончательные центры кластеров), (Принадпеж­

ность к кластерам), (Количество случаев в каждом класте­

ре) и ANOVA (Результаты проверки качества разбиения с

помощью ANOVд). В частности:

Cluster

1

17

2

13

 

 

 

 

Cluster .1t---~--+--1~----t

 

 

 

 

 

 

 

1

6

Cluster

2

16

3

4

 

 

4

4

 

 

 

 

1

13

 

2

4

Cluster

3

5

 

4

4

 

5

4

 

 

 

 

 

Медицинская статистика

 

 

 

 

 

 

 

Для семи кластеров:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

10

 

 

 

 

 

 

 

 

 

 

 

 

2

2

 

 

 

 

 

3

5

 

 

Cluster

 

4

3

 

 

 

 

 

5

7

 

 

 

 

 

6

2

 

 

 

 

 

7

1

 

Итак, предпочтительным является разделение выборки

на пять кластеров. Такое разбиение, во-первых, выделяет наибольшее число индивидов по главному результирующе­

му приэнаку классификации"'" «тип темперамента по Д. Кей­ си», во-вторых, увеличение числа кластеров только дробит

выборку, и увеличение числа кластеров до 10-20

аналитика. . . . . к полнейшему абсурду. . . .. . . . . . .

. . . . . . . . . . . . .

2. ДИСКРИМИНАНТНЫЙ АНАЛИЗ

приводит

. .. . ..

Основы диc"pu.м.иHaHmHoгo анализа

Кластерный анализ rюзволяет разделить эмпирическую

выборку на несколько классов (кластеров), однако не дает

, - '

ни правил, ни четких кри,!ериев оценки качества класси­

фикации. В то же время и правила, и критерии важны

прежде всего в вопросах диагностики редких, нетипичных

патологич~ских процессов, симптоматика которых весь­

ма размыта. И особенно в процессе оказания ургентной

(экстренной) медицинской помощи, когда у врача на пе­ pe~op вариантов лечебно-диагностической тактики счи­

танные минуты.

Для решения подобных задач и сущес~вует дискрими­ нантный анализ. И хотя дискриминантный и кластерный

анализы близки по сути (направлены на решение задач

классификации), но подходами к классификации прин-

о.

ципиально различаются.

Дискриминантный анализ, как и кластерный анализ, направлен на разделение выборки на ряд кластеров, но его