5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Медицинская_статистика_Жижин_К_С_
.pdfГлава 9. MHoroMepHble статистические методы
tt.
конечная цель - отнесение некоторого объекта к одному
из уже построенных классов, а также проверка непроти
BopeчивocTи классификации.
Термин «дискриминация» (от лат. discriminacio - раз деление) означает не только разделение объектов на клас
сы, но и ограничение такого разделения.
Это ряд методов, с помощью которых мы можем от
нести новый. объект к одному из заранее построенных
классов, а также проверить качество построенной клас
сификации. Еще дискриминантный анализ называют ана
лизом с обучающей выборкой для распознавания образов
или классификацией с обучением.
Кластеризация, многомерное шкалирование, эмпири
ческое классифицирование основывается на экспертных оценках на основании профессионального опыта врача
диагноста.
Алгоритм дискриминации таков:
1. Проверить, создана ли выборка данных в интерваль
ных шкалах или в шкалах отношений, имеют ли призна
ки нормальное распределение вероятностей.
2. Проверить, разделена ли выборка на конечное чис ло (не менее двух) непересекающихся классов, известна
ли Д1Iя каждого объекта его llринадлежность к определен
ному классу. (Можно ограничиться значениями вероятно стями ПРИНaД1Iежности объекта к каждому классу.)
3. Если все обстоит так, то можно приступать к реше
нию основных вопросов дискриминации:
•. Принадлежит ли произвольно выбранный объект из
генеральной совокупности к одному из классов, на
которые разделена эмпирическая выборка, и мож но ли конструировать правило классификации. Можно ли систему распознавания научить опреде
лять принадлежность объекта к тому или иному классу?
•Каково качество построенной классификации: на
сколько она чутка к разделению объектов на клас
сы, насколько такая дифференцировка достоверна?
'20 |
Медицинская статистика |
•Каковы информативные признаки из числа изме
ряемых у исследуемых объектов, какие из них име
.ют наибольшее значение для правильного и каче ственного дифференuирования.
Существует ряд разновидностей дискриминантного
анализа, но математическая сугь у них едина, поэтому Д1Iя
практического применения рассмотрим три основных на
правления дискриминантного анализа, реализованных в
большинстве статистических пакетов: |
' |
•линейный дискриминантный анализ Фишера;
•канонический дискриминантный анализ;
•пошаговый дискриминантный анализ.
Линейный дискриминантный анализ Фишера (линей
ная дискриминация Фишера, дискриминантный анализ) предложен Р. Фишером. Сугьего в том, что разбиения вы
борочной совокупности строятся на так называемой ли
нейной комбинации значений измеренных признаков. Ее
аналитическое выIажениеe таково:
т
hk = bko + ~b/g"Xj.
j=1
2.. Новый объект можно отнести к какому-то классу
согласно клаССИфицирующей функции, если значение
конкретного признака является максимальным среди всех
значений, вычисленных на этом объекте.
В основе метода Фишера лежит еще одно предполо:
жение, накладываемое на ковариации переменных: при
знаки должны иметь статистически идентичныIe ковариа
uионные матрицы.
Ковариация двух переменных - мера их совместного
изменения, равноценна коэффициенту корреляции Пир
сона. Однако показатель ковариации в отличие от коэф
фициента Пирс<)на может принимать произвольные зна чения, а не только в пределах: [-1 ~ r ~ +1].
Канонический дискриминантный анализ - схема об
ратна первому виду анализа: здесь разделение объектов ве дется по минимальным значениям дискриминирующей
Глава 9. MHoroMepHble статtКтические методы |
121 |
функции. Вопрос отнесения объекта к определенному
классу возможно положительно решить только тогда, когда
евклидово расстояние от центра кластера до оцениваемо
го показателя минимально. Такой вид анализа, конечно,
более сложен и трудоемок в реализации.
Тем более, на основе проведенных численных экспе
риментов РЯД' авторов отмечают, что результаты анапиза
Фишера и канонического дискриминантного анализа со
впадают.
С вводом в обиход персональных компьютеров широ
кое распространение получил так называемый (пошаго вый метод дискриминации). Он, как и линейный вид ана
лиза, достаточно прост в реализации и помогает наглядно
за счет последовательного включения (исключения) наи
более информативных дискриминантных переменных на каждом шаге (для каждого текущего набора дискриминант HblX переменных) оценивать качество полученной класси фикации.
При м еч ан и е. Сnедует'обратить самое серьезное внимание на обязате.. nьную нормаnьность распреде-
пения в rенерanьнои совокупности, которая часто не
выпоnняется ДЛЯ эмпирических данных. Пренебреже ние этим может привести к серьезным ошибкам кnас
сификации.
Прuмененuе nошаzовоzо диCKpu.миHaHmHoгo аНilЛuза
в КIIuнuческой nракmике
Упражнение 31. • • • • • е • е е е·· е е е е е е е е • е е е
ДИскриминантный анализ эмпирических данных - слу
чай подтверждения допуcrимоcrи классификации (пакет
Statistica).
УслоВие. Насколько точна диагностика острого аппен
дицита по степени выраженности симптомов: гангренозного
- 1, флегмонозного - 2, катарального - 3, другой абдо
минальной патологии - 4. В разработку включены данные 100 историй болезни с тремя видами аппендицитов и из них
24 случая неподтвержденных.
122 |
Медицинская статистика |
СИМПТОМЫ острого аппендицита, степень их выраженно
сти и их кодировка.
N2 |
Наименование Симптома |
Степень выраженности и код |
||
|
|
|
||
Х1 |
ПОДВЭДОUJiая боЛЬ |
1 - незначительна, |
||
2 - значительна |
||||
|
|
|||
|
|
|
||
~ |
Продоmкительность боли |
1 - более суток, 2 -ю 48 ч, |
||
3-до суток, 4 -до 12 ч |
||||
|
|
|||
|
|
|
||
хз |
Частота пульса |
1 - до 80, 2 - до 100, 3 - свыше |
||
100 ударов в минуту |
||||
|
|
|||
|
|
|
||
Х4 |
Лейкоцитарная формула |
1- не более 8, 2-до 14, |
||
3 - свыше 14 тыс.l мин |
||||
|
|
|||
Xs· |
Поверхность языка |
О - налета нет, 1 - обложен, |
||
цвет налета сероватый |
||||
|
|
|||
|
|
|
|
|
хв |
Симптом |
.0- нет,2 - |
резко выражен |
|
Щеткина - Блюмберга |
||||
|
|
|||
|
|
|
|
|
Х7 |
Симптом Ровэинга |
О - нет. 2 - |
река выражен |
|
ха |
Мышечное напряжение |
О - нет. 2 - |
резко выражено |
Фрагмент обучающего массива данных (п = 100 чел.)
Группирующая |
|
|
|
|
|
|
Симптомы |
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
Х1 |
|
Х2 |
|
ХЗ |
|
~ |
|
XS |
|
х& |
|
Х7 |
|
ха |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
1 |
|
2 |
|
3 |
|
1 |
|
2 |
|
1 |
|
|
2 |
|
2 |
|
2 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
~ .. ~ ............ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
·2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
3 |
|
1 |
|
2 |
|
1 |
|
|
2 |
|
2 |
|
2 |
||||
.............. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
3 |
|
1 |
|
3 |
|
1 |
|
2 |
|
1 |
|
|
О |
|
2 |
|
2 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
............... |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
4 |
|
1 |
|
2 |
|
1 |
|
1 |
|
О |
|
О |
|
О |
|
О |
||||
|
......... |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
и т.Д. до 100 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
наблюдений |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Решение. Запускаем пакет Statistica, создаем новый
файл данных, вводим в таблицу, расширив число случаев
до 100, данные на 100 пациентов согласно таблице «Обуча
ющий массив данных».
ГЛдВд 9. Многомерные статистические методы |
.121 |
Входим в стартовую панельлакетаи выбираем (Дискри
минантный анализ), выбираем независимые и ГРУr:'пирующие
на следующие вопросы:
1.Какова информативность симптомов линейных дис
криминационных функций?
2.Каков вклад линейных дискриминационных функций
(ЛДФ) в дисперсию симптомов?
З. Каковы коэффициенты кано~ических ЛДФ?
4.Какова факторная структура канонических ЛДФ?
5.Как выглядят координаты центроидов четырех ГРУIlП
данных, включенных в разработку?
б. Как выглядит график положения объектов анализа?
7. Какова ма'грица чувствительности диагностики из таб
лиц обучающей информации.
Вызываем окно днализ. В окне днализа последователь
но появятся несколько таблиц с результирующими данными.
ПерВая таблица (Disсгimiпапt Fuпtiоп дпаlisis Summari)
выделяет как наиболее информативные симптомы 8, б, 2, 7, 1, 3, 4, включенные в ЛДФ с шестью характеристиками по
каждому.
Вторая таблица (VariabIes сuггепtlу not in the model)
показывает симптом 5, как наименее информативный в дан
ной подборке симптомов, не включенных в ЛДФ
Третья таблица (Сlаssifiсаtiоп Fuпсtiопs, grupping) «вы
дает» 110 каждому симтому набор коэффицентов ДЛЯ линей
ных классификационных функций (ЛКФ). Кроме всего про
чего, мы можем получить распечатку формул расчета ЛКФ.
ЧетВертая таблица (Ctli-Square Tests with Successive
Roots Removed) показывает вклад канонических ЛДФ в дис персию признаков ( в частности, две первые из них делают
наиболее существенный вклад в диагностику заболевания). Пятая таблица (Raw Coefficients) показывает значения
коэффициентов канонических ЛДФ.
Шестая таблица (Factor Structure Matrix, Correlations
VагiаЫеs-Сапопicаl Roots) показывает факторную струк
туру Канонических ЛДФ.
124 Медицинская статистика
Седьмая таблица (Means of Canonical VariabIes) содер
жит свод координат центроидов.
Восьмая таблица (Classification Маtгiх)содержит ИН
формацию о чувствительности решающих правил дискрими
нации.
Вь/Вод по услоВиям nредстаВленноiJ задачи. Для диаг ностики данной группы хирургических патологий необходи
мо использовать первые две канонические ЛДФ, поскольку
их суммарный вклад в дисперсию симптомов составляет
=:: 98%. Таблица 8 показывает, что принятая нами система позволяет правильно диагностировать в среднем 15,1%
больных. Однако по группам патологий прослеживается не который «разнобой» показателей безоши'бочной диагнос
тики: 1) 78,6%; 2) 60,0%; 3) 65,4%; 4) 100% соответствен
но. Недостаточная точность диагностики патологий первой
и второй групп объясняется перекрытием симптомов и вы зывает потребность в более тонкой дифференцировке сим-
11томокоплексов острого аппендицита.
Технически процедура диагностики заболеваний конк
ретных Больны x складывается из:
1. Оценки симптомов заболевания в баллах.
i Расчета канонических линейных дискриминантных
функций (КЛДФ) дЛЯ отнесения конкретного больного к той или иной группе заболеваний.
Пример расчета:
Больной |
|
|
|
Симптомы |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
ха |
>се |
Х2 |
|
Xz- |
|
Х1 |
ХЗ |
|
~ |
|
|
|
|
|
|||||||
1 |
2 |
2 |
3 |
|
2 |
|
2 |
1 |
|
2 |
11 |
О |
О |
2 |
|
О |
|
1 |
1 |
|
1 |
Для всех групп заболеваний, включенных в обучающую
таблицу (матрицу), определяются 1-3 КЛДФ. Первая КЛДФ
должна описывать наибольшую часть дисперсии симптомов
заболевания, вторая - наt1большую часть из оставшихся признаков и так далее по убывающей. Мощность вклада
оценивается по Критерию х2 Пирсона при р ~ 0,05. В нашем
случае, перемножив коэффициенты КЛДФ из таблицы 5 и
Глава 9. MHorOMepHble статистические методы |
'2S |
значения кодов симптомов (первого и второго больного), мы
с 98 %-ной точностью относим'проявления заболевания у
первого больного к флегмонозному аппендициту, а у друго
~o - к неподтвержденному диагнозу аппендицита.
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
.8 |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
• |
з. ФАКТОРНЫЙ АНАЛИЗ
Теоретические основы фан:торного аНQJluза
Факторный анализ сегодня саМЫЙ популярный из всех
MHoгo~epHЫx методов анализа, но, как правило, в дале
ких от медицины областях, если не считать фундаменталь
ной работы на эту тему немецкого ученого врача Карла
Иберлы, вышедшей в 80-е годы хх столетия. К сожале
нию, знаком с этим MeTOДOM~ возможно, не более чем один врач из тысячи. Наша сегодняшняя задача состоит в том,
чтобы донести до читателя основу этого вида анализа и на
практических примерах показать, как он виляет на син
Te~, интеграцию и интерпретацию конечного результата
обработки данных.
В отличие от всех ранее описанных в данной книге при
емов обработки эмпирической информации факторный
анализ не только позволяет сжать объемы информации, но
на совершенно новой основе строит доказательство влия
ния этих факторов. Если все предьщущие методы цифрами
всего лишь подтверждали влияние подразумеваемого, пред
полагаемого фактора или группы факторов, то в данном
случае выявляется этот самый скрытый (латентный) фак
тор или группа и цифрами объясняется его влияние.
Факторный анализ в принципе - мультифакторный
анализ, но «начало» его в однофакторном анализе ч. Спир мена и двухфакторном (бифакторном) - К. Холзингера.
Естественно, математические основы, к примеру, у
одно-двухфакторного и мультифакторного анализа суще
ственно отличаются.
Это сугубо математический метод, в котором обяза
тельно используется корреляционная матрица - матрица
.28 |
МеДИЦИNскаR статистика |
попарных коэффициентов линейной корреляции Пирсо
на между исследуемыми признаками.
Процедура извлечения факторов с ПО,мощъюкорреля
ционной матрицы исходных данных называется фактори зацией.
Концепция факторного анализа заключена в следую
щем:
•Истинные причины изучаемого явления не могуг
быть непосредственно наблюдаемы и доступны, их
число также неизвестно исследователю.
•Признаки измерены в интервальных шкалах.
•Предполагается нормальность распределения ис
следуемых эмпирических данных в генеральной со
вокупности.
•Постулируется ортогональность и незави~имость ВЫЯWlяемых факторов, хотя это положение на прак
тике ТРУДНОВЫПОЛНИМQ.
Из всего сказанного ясно, что применимость методов факторного анализа является весьма «жесткой), ограничи
тельной, и ((корень зла~ прежде всего, в частности, в ин
тервальных измерительных шкалах и соответствии вероят
ностного распределения признаков нормальному закону.
В медико-биологических исследованиях эти постула
ты часто не выполняются, и, естественно, теоретические
основы факторного анализа фактически являются весьма
условными~
Тем не менее, как пишет К. Иберла, упомянутые огра
ничения на применение факТорного анализа можно если
не совсем обойти, то в той или иной степени ослабить ис
пользованием методов эвристического склада, т. е. позво
ляющих получить решение без его исчерпывающего тео ретического обоснования.
Мы не будем подробно останавливаться на классифи кации его методов, тем более что некоторые авторы отме
чают, что различные методы дают принципиально одина
ковые результаты.
Глава 9, МиоrОllериые crатиcrические методы |
127 |
Модель факторного анализа такова:
1. Имеется N объектов (например, испытуемых), для
каждого из которых измерено n признаков (например, не
которых свойств). Результаты представленыI в виде мат рицы «объект-признак»'.
2. Исходные эмпирические данные нормируются.
Идея факторного анализа состоит в том, чтобы пред
ставить нормированные значения матрицы <Qобъект - при знак» в виде линейной комбинации небольшого числа скрытых (латентных) факторов, т. е. упростить структуру
признакового пространства.
С помощью данной модели вводится в рассмотрение
ряд базовых понятий факторного анализа:
•Общие факторы - выделяемые при факторном ана
лизе, как мы уже сказали, - латентные факторы,
их нельзя измерить непосредственно, но можно
вьщелить статистическими методами.
•Специфические факторы - выделяемые при фак
торном анализе латентные факторы, воздействую-'
щие на какой-либо один' определенный признак.
•Факторные нагрузки - не известные заранее коэф
фициенты общих и специфических факторов.
•Общность'- вклад общих факторов в дисперсию
признака.
•Характерность - вклад специфических факторов в
дисперсию.
•Факторная матрица - матрица, составленная из ко
ординат общих факторов.
• |
Факторные веса |
коэффициенты факторной |
|
матрицы. |
|
• |
Объясненная дисперсия - часть общей дисперсии, |
|
|
объясняемая с помощью выделенных факторов. |
•Собственные значения - рассматриваемые в мате
матике собственные значения матрицы «объект -
признак».
•Факторная структура - набор общих факторов, ко торые заменяют собой исходны e признаки.
t:l8 |
Медицинская статистика |
Центральное звено факторного анализа составляет
оценка факторных нагрузок, приемы могут быть pa~Hыe:
метод главных компонент, метод главных факторов и т. д.
Факторы задают по суги новые оси в пространстве при
знаков в декартовой системе координат. В этом плане глав
ная особенность факторного анализа - вращение факто
ров, позволяющее получить более простую и легче интер
претируемую факторную структуру.
В ФА применяется множество видов вращения факто
ров:
•(Варимакс) и (Нормализованный Варимакс);
•(Биквартимакс) и (Нормализованный Бикварти-
макс);
•(Квартимакс) и (Нормализованный Квартимакс);
•(Эквимакс) и (Нормализованный Эквимакс).
Общего «рецепта» вращения не существует. Исследо-
ватель сам подбирает наиболее подходящий метод враще
ния факторов эмпирическим пугем.
ПРОИJUlioстрируем применение факторноro анализа на
конструировании из множества исходных признаков не
большого колИчества новых переменных (главных компо
нент), объясняющих значительную часть общей дисперсии.
Метод главных компонент специфичен, но часто рассмат
ривается как один из методов факторного анализа: именно
в таком качестве он реализован в пакетах SPSS и Statistica. В пакете Statistica реализовано множество разновид-
настей методов факторного анализа: .
•главных компонент;
•главных факторов;
•
•
гла·вных осей;
максимального правдоподобия;
•центроидныЙ.
Представление данных при проведении факторного
анализа может осуществляться, или в виде «сырых», пер
вичных данных, или в виде готовой матрицы корреляций.
Это непринципиально, но вносит определенные дополни тельные коррективы в процесс обработки эмпирических
данных.