Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Медицинская_статистика_Жижин_К_С_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
8.17 Mб
Скачать

Глава 9. MHoroMepHble статистические методы

tt.

конечная цель - отнесение некоторого объекта к одному

из уже построенных классов, а также проверка непроти­

BopeчивocTи классификации.

Термин «дискриминация» (от лат. discriminacio - раз­ деление) означает не только разделение объектов на клас­

сы, но и ограничение такого разделения.

Это ряд методов, с помощью которых мы можем от­

нести новый. объект к одному из заранее построенных

классов, а также проверить качество построенной клас­

сификации. Еще дискриминантный анализ называют ана­

лизом с обучающей выборкой для распознавания образов

или классификацией с обучением.

Кластеризация, многомерное шкалирование, эмпири­

ческое классифицирование основывается на экспертных оценках на основании профессионального опыта врача­

диагноста.

Алгоритм дискриминации таков:

1. Проверить, создана ли выборка данных в интерваль­

ных шкалах или в шкалах отношений, имеют ли призна­

ки нормальное распределение вероятностей.

2. Проверить, разделена ли выборка на конечное чис­ ло (не менее двух) непересекающихся классов, известна

ли Д1Iя каждого объекта его llринадлежность к определен­

ному классу. (Можно ограничиться значениями вероятно­ стями ПРИНaД1Iежности объекта к каждому классу.)

3. Если все обстоит так, то можно приступать к реше­

нию основных вопросов дискриминации:

•. Принадлежит ли произвольно выбранный объект из

генеральной совокупности к одному из классов, на

которые разделена эмпирическая выборка, и мож­ но ли конструировать правило классификации. Можно ли систему распознавания научить опреде­

лять принадлежность объекта к тому или иному классу?

Каково качество построенной классификации: на­

сколько она чутка к разделению объектов на клас­

сы, насколько такая дифференцировка достоверна?

'20

Медицинская статистика

Каковы информативные признаки из числа изме­

ряемых у исследуемых объектов, какие из них име­

.ют наибольшее значение для правильного и каче­ ственного дифференuирования.

Существует ряд разновидностей дискриминантного

анализа, но математическая сугь у них едина, поэтому Д1Iя

практического применения рассмотрим три основных на­

правления дискриминантного анализа, реализованных в

большинстве статистических пакетов:

'

линейный дискриминантный анализ Фишера;

канонический дискриминантный анализ;

пошаговый дискриминантный анализ.

Линейный дискриминантный анализ Фишера (линей­

ная дискриминация Фишера, дискриминантный анализ) предложен Р. Фишером. Сугьего в том, что разбиения вы­

борочной совокупности строятся на так называемой ли­

нейной комбинации значений измеренных признаков. Ее

аналитическое выIажениеe таково:

т

hk = bko + ~b/g"Xj.

j=1

2.. Новый объект можно отнести к какому-то классу

согласно клаССИфицирующей функции, если значение

конкретного признака является максимальным среди всех

значений, вычисленных на этом объекте.

В основе метода Фишера лежит еще одно предполо:­

жение, накладываемое на ковариации переменных: при­

знаки должны иметь статистически идентичныIe ковариа­

uионные матрицы.

Ковариация двух переменных - мера их совместного

изменения, равноценна коэффициенту корреляции Пир­

сона. Однако показатель ковариации в отличие от коэф­

фициента Пирс<)на может принимать произвольные зна­ чения, а не только в пределах: [-1 ~ r ~ +1].

Канонический дискриминантный анализ - схема об­

ратна первому виду анализа: здесь разделение объектов ве­ дется по минимальным значениям дискриминирующей

Глава 9. MHoroMepHble статtКтические методы

121

функции. Вопрос отнесения объекта к определенному

классу возможно положительно решить только тогда, когда

евклидово расстояние от центра кластера до оцениваемо­

го показателя минимально. Такой вид анализа, конечно,

более сложен и трудоемок в реализации.

Тем более, на основе проведенных численных экспе­

риментов РЯД' авторов отмечают, что результаты анапиза

Фишера и канонического дискриминантного анализа со­

впадают.

С вводом в обиход персональных компьютеров широ­

кое распространение получил так называемый (пошаго­ вый метод дискриминации). Он, как и линейный вид ана­

лиза, достаточно прост в реализации и помогает наглядно

за счет последовательного включения (исключения) наи­

более информативных дискриминантных переменных на каждом шаге (для каждого текущего набора дискриминант­ HblX переменных) оценивать качество полученной класси­ фикации.

При м еч ан и е. Сnедует'обратить самое серьезное внимание на обязате.. nьную нормаnьность распреде-

пения в rенерanьнои совокупности, которая часто не

выпоnняется ДЛЯ эмпирических данных. Пренебреже­ ние этим может привести к серьезным ошибкам кnас­

сификации.

Прuмененuе nошаzовоzо диCKpu.миHaHmHoгo аНilЛuза

в КIIuнuческой nракmике

Упражнение 31. • • • • • е е е е·· е е е е е е е е е е е

ДИскриминантный анализ эмпирических данных - слу­

чай подтверждения допуcrимоcrи классификации (пакет

Statistica).

УслоВие. Насколько точна диагностика острого аппен­

дицита по степени выраженности симптомов: гангренозного

- 1, флегмонозного - 2, катарального - 3, другой абдо­

минальной патологии - 4. В разработку включены данные 100 историй болезни с тремя видами аппендицитов и из них

24 случая неподтвержденных.

122

Медицинская статистика

СИМПТОМЫ острого аппендицита, степень их выраженно­

сти и их кодировка.

N2

Наименование Симптома

Степень выраженности и код

 

 

 

Х1

ПОДВЭДОUJiая боЛЬ

1 - незначительна,

2 - значительна

 

 

 

 

 

~

Продоmкительность боли

1 - более суток, 2 48 ч,

3-до суток, 4 -до 12 ч

 

 

 

 

 

хз

Частота пульса

1 - до 80, 2 - до 100, 3 - свыше

100 ударов в минуту

 

 

 

 

 

Х4

Лейкоцитарная формула

1- не более 8, 2-до 14,

3 - свыше 14 тыс.l мин

 

 

Xs·

Поверхность языка

О - налета нет, 1 - обложен,

цвет налета сероватый

 

 

 

 

 

 

хв

Симптом

.0- нет,2 -

резко выражен

Щеткина - Блюмберга

 

 

 

 

 

 

Х7

Симптом Ровэинга

О - нет. 2 -

река выражен

ха

Мышечное напряжение

О - нет. 2 -

резко выражено

Фрагмент обучающего массива данных (п = 100 чел.)

Группирующая

 

 

 

 

 

 

Симптомы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Х1

 

Х2

 

ХЗ

 

~

 

XS

 

х&

 

Х7

 

ха

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

3

 

1

 

2

 

1

 

 

2

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~ .. ~ ............

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

·2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

3

 

1

 

2

 

1

 

 

2

 

2

 

2

..............

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

1

 

3

 

1

 

2

 

1

 

 

О

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

...............

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

1

 

2

 

1

 

1

 

О

 

О

 

О

 

О

 

.........

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и т.Д. до 100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

наблюдений

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение. Запускаем пакет Statistica, создаем новый

файл данных, вводим в таблицу, расширив число случаев

до 100, данные на 100 пациентов согласно таблице «Обуча­

ющий массив данных».

ГЛдВд 9. Многомерные статистические методы

.121

Входим в стартовую панельлакетаи выбираем (Дискри­

минантный анализ), выбираем независимые и ГРУr:'пирующие

на следующие вопросы:

1.Какова информативность симптомов линейных дис­

криминационных функций?

2.Каков вклад линейных дискриминационных функций

(ЛДФ) в дисперсию симптомов?

З. Каковы коэффициенты кано~ических ЛДФ?

4.Какова факторная структура канонических ЛДФ?

5.Как выглядят координаты центроидов четырех ГРУIlП

данных, включенных в разработку?

б. Как выглядит график положения объектов анализа?

7. Какова ма'грица чувствительности диагностики из таб­

лиц обучающей информации.

Вызываем окно днализ. В окне днализа последователь­

но появятся несколько таблиц с результирующими данными.

ПерВая таблица (Disсгimiпапt Fuпtiоп дпаlisis Summari)

выделяет как наиболее информативные симптомы 8, б, 2, 7, 1, 3, 4, включенные в ЛДФ с шестью характеристиками по

каждому.

Вторая таблица (VariabIes сuггепtlу not in the model)

показывает симптом 5, как наименее информативный в дан­

ной подборке симптомов, не включенных в ЛДФ

Третья таблица (Сlаssifiсаtiоп Fuпсtiопs, grupping) «вы­

дает» 110 каждому симтому набор коэффицентов ДЛЯ линей­

ных классификационных функций (ЛКФ). Кроме всего про­

чего, мы можем получить распечатку формул расчета ЛКФ.

ЧетВертая таблица (Ctli-Square Tests with Successive

Roots Removed) показывает вклад канонических ЛДФ в дис­ персию признаков ( в частности, две первые из них делают

наиболее существенный вклад в диагностику заболевания). Пятая таблица (Raw Coefficients) показывает значения

коэффициентов канонических ЛДФ.

Шестая таблица (Factor Structure Matrix, Correlations

VагiаЫеs-Сапопicаl Roots) показывает факторную струк­

туру Канонических ЛДФ.

124 Медицинская статистика

Седьмая таблица (Means of Canonical VariabIes) содер­

жит свод координат центроидов.

Восьмая таблица (Classification Маtгiх)содержит ИН­

формацию о чувствительности решающих правил дискрими­

нации.

Вь/Вод по услоВиям nредстаВленноiJ задачи. Для диаг­ ностики данной группы хирургических патологий необходи­

мо использовать первые две канонические ЛДФ, поскольку

их суммарный вклад в дисперсию симптомов составляет

=:: 98%. Таблица 8 показывает, что принятая нами система позволяет правильно диагностировать в среднем 15,1%

больных. Однако по группам патологий прослеживается не­ который «разнобой» показателей безоши'бочной диагнос­

тики: 1) 78,6%; 2) 60,0%; 3) 65,4%; 4) 100% соответствен­

но. Недостаточная точность диагностики патологий первой

и второй групп объясняется перекрытием симптомов и вы­ зывает потребность в более тонкой дифференцировке сим-

11томокоплексов острого аппендицита.

Технически процедура диагностики заболеваний конк­

ретных Больны x складывается из:

1. Оценки симптомов заболевания в баллах.

i Расчета канонических линейных дискриминантных

функций (КЛДФ) дЛЯ отнесения конкретного больного к той или иной группе заболеваний.

Пример расчета:

Больной

 

 

 

Симптомы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ха

>се

Х2

 

Xz-

 

Х1

ХЗ

 

~

 

 

 

 

1

2

2

3

 

2

 

2

1

 

2

11

О

О

2

 

О

 

1

1

 

1

Для всех групп заболеваний, включенных в обучающую

таблицу (матрицу), определяются 1-3 КЛДФ. Первая КЛДФ

должна описывать наибольшую часть дисперсии симптомов

заболевания, вторая - наt1большую часть из оставшихся признаков и так далее по убывающей. Мощность вклада

оценивается по Критерию х2 Пирсона при р ~ 0,05. В нашем

случае, перемножив коэффициенты КЛДФ из таблицы 5 и

Глава 9. MHorOMepHble статистические методы

'2S

значения кодов симптомов (первого и второго больного), мы

с 98 %-ной точностью относим'проявления заболевания у

первого больного к флегмонозному аппендициту, а у друго­

~o - к неподтвержденному диагнозу аппендицита.

.8

з. ФАКТОРНЫЙ АНАЛИЗ

Теоретические основы фан:торного аНQJluза

Факторный анализ сегодня саМЫЙ популярный из всех

MHoгo~epHЫx методов анализа, но, как правило, в дале­

ких от медицины областях, если не считать фундаменталь­

ной работы на эту тему немецкого ученого врача Карла

Иберлы, вышедшей в 80-е годы хх столетия. К сожале­

нию, знаком с этим MeTOДOM~ возможно, не более чем один врач из тысячи. Наша сегодняшняя задача состоит в том,

чтобы донести до читателя основу этого вида анализа и на

практических примерах показать, как он виляет на син­

Te~, интеграцию и интерпретацию конечного результата

обработки данных.

В отличие от всех ранее описанных в данной книге при­

емов обработки эмпирической информации факторный

анализ не только позволяет сжать объемы информации, но

на совершенно новой основе строит доказательство влия­

ния этих факторов. Если все предьщущие методы цифрами

всего лишь подтверждали влияние подразумеваемого, пред­

полагаемого фактора или группы факторов, то в данном

случае выявляется этот самый скрытый (латентный) фак­

тор или группа и цифрами объясняется его влияние.

Факторный анализ в принципе - мультифакторный

анализ, но «начало» его в однофакторном анализе ч. Спир­ мена и двухфакторном (бифакторном) - К. Холзингера.

Естественно, математические основы, к примеру, у

одно-двухфакторного и мультифакторного анализа суще­

ственно отличаются.

Это сугубо математический метод, в котором обяза­

тельно используется корреляционная матрица - матрица

.28

МеДИЦИNскаR статистика

попарных коэффициентов линейной корреляции Пирсо­

на между исследуемыми признаками.

Процедура извлечения факторов с ПО,мощъюкорреля­

ционной матрицы исходных данных называется фактори­ зацией.

Концепция факторного анализа заключена в следую­

щем:

Истинные причины изучаемого явления не могуг

быть непосредственно наблюдаемы и доступны, их

число также неизвестно исследователю.

Признаки измерены в интервальных шкалах.

Предполагается нормальность распределения ис­

следуемых эмпирических данных в генеральной со­

вокупности.

Постулируется ортогональность и незави~имость ВЫЯWlяемых факторов, хотя это положение на прак­

тике ТРУДНОВЫПОЛНИМQ.

Из всего сказанного ясно, что применимость методов факторного анализа является весьма «жесткой), ограничи­

тельной, и ((корень зла~ прежде всего, в частности, в ин­

тервальных измерительных шкалах и соответствии вероят­

ностного распределения признаков нормальному закону.

В медико-биологических исследованиях эти постула­

ты часто не выполняются, и, естественно, теоретические

основы факторного анализа фактически являются весьма

условными~

Тем не менее, как пишет К. Иберла, упомянутые огра­

ничения на применение факТорного анализа можно если

не совсем обойти, то в той или иной степени ослабить ис­

пользованием методов эвристического склада, т. е. позво­

ляющих получить решение без его исчерпывающего тео­ ретического обоснования.

Мы не будем подробно останавливаться на классифи­ кации его методов, тем более что некоторые авторы отме­

чают, что различные методы дают принципиально одина­

ковые результаты.

Глава 9, МиоrОllериые crатиcrические методы

127

Модель факторного анализа такова:

1. Имеется N объектов (например, испытуемых), для

каждого из которых измерено n признаков (например, не­

которых свойств). Результаты представленыI в виде мат­ рицы «объект-признак»'.

2. Исходные эмпирические данные нормируются.

Идея факторного анализа состоит в том, чтобы пред­

ставить нормированные значения матрицы <Qобъект - при­ знак» в виде линейной комбинации небольшого числа скрытых (латентных) факторов, т. е. упростить структуру

признакового пространства.

С помощью данной модели вводится в рассмотрение

ряд базовых понятий факторного анализа:

Общие факторы - выделяемые при факторном ана­

лизе, как мы уже сказали, - латентные факторы,

их нельзя измерить непосредственно, но можно

вьщелить статистическими методами.

Специфические факторы - выделяемые при фак­

торном анализе латентные факторы, воздействую-'

щие на какой-либо один' определенный признак.

Факторные нагрузки - не известные заранее коэф­

фициенты общих и специфических факторов.

Общность'- вклад общих факторов в дисперсию

признака.

Характерность - вклад специфических факторов в

дисперсию.

Факторная матрица - матрица, составленная из ко­

ординат общих факторов.

Факторные веса

коэффициенты факторной

 

матрицы.

 

Объясненная дисперсия - часть общей дисперсии,

 

объясняемая с помощью выделенных факторов.

Собственные значения - рассматриваемые в мате­

матике собственные значения матрицы «объект -

признак».

Факторная структура - набор общих факторов, ко­ торые заменяют собой исходны e признаки.

t:l8

Медицинская статистика

Центральное звено факторного анализа составляет

оценка факторных нагрузок, приемы могут быть pa~Hыe:

метод главных компонент, метод главных факторов и т. д.

Факторы задают по суги новые оси в пространстве при­

знаков в декартовой системе координат. В этом плане глав­

ная особенность факторного анализа - вращение факто­

ров, позволяющее получить более простую и легче интер­

претируемую факторную структуру.

В ФА применяется множество видов вращения факто­

ров:

(Варимакс) и (Нормализованный Варимакс);

(Биквартимакс) и (Нормализованный Бикварти-

макс);

(Квартимакс) и (Нормализованный Квартимакс);

(Эквимакс) и (Нормализованный Эквимакс).

Общего «рецепта» вращения не существует. Исследо-

ватель сам подбирает наиболее подходящий метод враще­

ния факторов эмпирическим пугем.

ПРОИJUlioстрируем применение факторноro анализа на

конструировании из множества исходных признаков не­

большого колИчества новых переменных (главных компо­

нент), объясняющих значительную часть общей дисперсии.

Метод главных компонент специфичен, но часто рассмат­

ривается как один из методов факторного анализа: именно

в таком качестве он реализован в пакетах SPSS и Statistica. В пакете Statistica реализовано множество разновид-

настей методов факторного анализа: .

главных компонент;

главных факторов;

гла·вных осей;

максимального правдоподобия;

центроидныЙ.

Представление данных при проведении факторного

анализа может осуществляться, или в виде «сырых», пер­

вичных данных, или в виде готовой матрицы корреляций.

Это непринципиально, но вносит определенные дополни­ тельные коррективы в процесс обработки эмпирических

данных.