Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных

.pdf
Скачиваний:
9
Добавлен:
24.03.2024
Размер:
15.15 Mб
Скачать

Статистический анализ медицинских данных ".

стериорные сравнения" ("Post-hoc comparisons") во втором диа­ логовом окне (см. рис. 13.2).

Интерпретщия результатов. Полученные результаты мож­

но интерпретировать следующим образом.

-Если р>О,05, то нулевая гипотеза об отсутствии влияния изу­

чаемых факторов на зависимый признак не отклоняется.

-Если р<О,05, то нулевая гипотеза отклоняется, и следует при­

нять альтернативную гипотезу о существовании влияния изу­

чаемых факторов на зависимый признак, описываемого мо­ делью с параметрами, оqенки которых получены в этой про­

qедуре.

Об интерпретаqии результатов апостериорных сравнений см.

раздел 8.4.1.3.

Рекомендуемое описание результатов.

-Сначала опишите исследуемые признаки с помощью описа­ тельной статистики.

-Подтвердите, что условия применимости дисперсионного ана­ лиза соблюдаются.

-Приведите результаты дисперсионного анализа в виде табли­

IJЫ (желательно).

-Укажите, проверялись ли независимые признаки на взаимо­

связь и каким образом.

-Приведите точные значения р для каждого коэффиqиента

модели.

Замечание. Статистmески значимые результаты рег­ рессионною анализа ( бпрочем, как и других 8идо8 многофак­

торною анализа) по.лучить трудно 8 силу обычно небольшо­ ю числа наблюдений 8 медицинских исс.ледобаниях и наличия пропускоб 8 данных (см. раздел 13.5). Также большую труд­

ность бсегда предстаб.ляет интерпретация резу.лыпатоб.

13.2. Дискриминантный анализ

Задача 1: разработать формальное правило (иногда его на­

зывают еще решающим правилом) отнесения нового объекта

исследования к той или иной ранее изученной группе - в зада­

чах диагностики или прогноза.

Пример 1: изучались две группы больных - с хорошей и плохой динамикой восстановления после черепно-мозговой трав­

мы. Требуется построить правило прогноза динамики (хорошая

202

Глава 13. Мноrофакторный анализ данных

либо плохая) у вновь поступающего паgиента на основе несколь­

ких количественно измеренных симптомов.

Задача 2: выявить наиболее информативные (в смысле диф­ ференgиаgии двух групп объектов и более) признаки из некото­

рого набора признаков.

Пример 2: найти особенности липидного спектра крови у

больных с разными локализаgиями преимущественного пора­ жения сосудистой стенки при атеросклерозе, например с пре­

имущественным пора.жением коронарных или сонных арте­

рий.

Решение: для решения таких задач можно воспользоваться

методом дискриминантного анализа - методом исследования

связи одного качественного признака (в примере 1 - тип дина­

мики, в примере 2 - локализаgия преимущественного пораже­ ния сосудистой стенки) и набора количественных нормально рас­

пределенных признаков (в примере 1 - симптомов, в примере 2 - конgентраgии липидов). При использовании этого метода

алгоритм выбирает такие признаки, значения которых наиболее

близки у объектов исследования одной группы и наиболее раз­

личны у объектов исследования из разных групп.

При этом признак, детерминирующий группы объектов ис­

следования (группирующий признак), должен быть качествен­

ным и иметь 2 значения и более.

Замечание. )Jµскриминантный анализ - один из ме11w­

дов решения так называемой задачи классификации, и.ли рас­

познавания образов - задачи отнесения изучаемою обьекта (например, больною) к одной из нескольких групп на основе

измерения у него некоторою чис.ла признаков (например, сим­ птомов).

STАТISTICA:

~ Модуль "Дискриминантный анализ"

("Discriminant analysis") (рис. 13.5)

В первом диалоговом окне (см. рис. 13.5) следует выбрать

группирующий признак и независимые признаки, нажав на кнопку

"Переменные". Во втором диалоговом окне (рис. 13.6) необхо­

димо выбрать метод анализа - стандартный ( standard), прямой

пошаговый ( forward stepwise), обратный пошаговый (backward stepwise).

203

Статистический анализ медицинских данных ...

 

1-я группа

2-я группа

 

 

(прогнозируемое

(прогнозируемое

Всего

 

состояние)

состояние)

 

1-я группа

80 (80%)

20

100

(истинное состояние)

 

 

 

2-я группа

30

70 (70%)

100

(истинное состояние)

 

 

 

Всего

110

90

200

Рис. 13.8. Матриqа классификаqии как результат применения ли­

нейной дискриминантной фунКIJИИ (число и доля объектов ис­ следования).

-При р<О,05 можно считать, что построенная модель доста­

точно хороша.

-Если качество распознавания достаточно высокое (более 90% в каждой из исследуемых групп), то можно считать ЛДФ достаточно эффективной, и стоит проверить работоспособ­ ность модели ( валидизировать модель) 1.

-При использовании пошаговой (stepwise) проgедуры анализ

порядка включения признаков может быть полезен для ин­

терпретаgии относительной информативности признаков и

их связей.

Проверка работоспособности модели. Результатом дис­

криминантного анализа является создание статистической моде­

ли (уравнений линейной дискриминантной функgии). Как у вся­

кой математической модели, у этой модели следует проверять

работоспособность ( валидизировать модель). Проgедура провер­

ки работоспособности модели заключается в применении ЛДФ к

новым объектам исследования, не вошедшим в обучающую вы­

борку - экзаменаgионной выборке - с gелью оgенки эффек­ тивности ЛДФ и устойчивости результата распознавания (под­

робнее см. раздел 13.5).

Представление результатов. Привести следующую инфор­

маgию:

-число объектов исследования в каждой из групп;

1 Высокие требоnания J< качеству распознавания (не менее 90% правильного рас­ по:шавания) обусловлены тем, что оно должно быть заведомо выше того, которое

может быть достигнуто без применения статистического моделирования.

206

-

 

Глава 13. Многофакторный

анализ данных

прочент

правильной классификачии в каждой

из групп;

таблиlJУ

с коэффичиентами ЛДФ;

 

 

 

точное значение р для уравнения

ЛДФ.

 

 

Замечание. Для пробедения

дискриминантною

анализа

 

мы рекомендуем обращаться к специалистам 6 области при­

КАадной

статистики или к специальной литературе, напри­

мер [24].

 

 

 

1

З.З.

Кластерный

анализ

Кластерный

анализ

является

методом

поиска

закономерно­

 

 

 

,

так

стей группирования как объектов исследования

 

в

отдельные локальные

подмножества

(кластеры).

 

 

и

признаков

Основными

типами

кластерного

анализа

являются

следую­

щие:

 

 

 

 

группировка

объектов исследования

в

кластеры;

-

группировка

признаков в кластеры;

 

 

-

одновременная группировка объектов

исследования

 

и

при-

знаков.

Группировка

объектов

исследования

в

кластеры

при­

меняется

в

тех

случаях,

когда

предполагается,

что

имеющаяся

выборка

гетерогенна,

но

причина

гетерогенности

при

этом

неиз­

вестна.

Результатом

применения

проlJедуры

кластеризачии

мо­

жет

быть

формирование

нескольких

подгрупп

(кластеров)

объ­

ектов

исследования,

в

каждой

из

которых

содержатся

сходные

наблюдения.

Дальнейший

анализ

подгрупп

может

выявить

неко­

торые

объективные

признаки,

по

которым

эти

подгруппы

разли­

чаются.

Группировка

признаков

в

кластеры

применяется

на

дос­

таточно

однородной

отношении

наблюдений,

или объектов

исследования) выборке

ностей связи признаков

с челью поиска неизвестных

­

закономер

(или групп признаков).

Результатом мо­

жет

быть

формирование

нескольких

групп

признаков,

в

каждой

из

которых

содержатся

признаки,

обнаружившие

статистически

значимые взаимосвязи.

Проведение кластерного

анализа

и

интерпретачия

его резуль­

татов достаточно сложны, поэтому мы рекомендуем за помощью к спечиалистам в области прикладной

обращаться статистики

или

к

спечиальной

литературе,

например

[24,

29].

207

Статистический

анализ

медицинских

данных

...

13.4. Анализ

и факторный

главных анализ

компонент

В типичном клиническом

признаков бывает достаточно

исследовании число исследованных

велико. Однако большое количест­

во

признаков

ва)

не только

(большая

размерность

приводит

к увеличению

признакового пространст­

полноты и глубины иссле­

дования

проблемы,

но

и

затушевывает

имеющиеся

закономерно­

сти.

Для

решения

этой

проблемы

могут

применяться

обсуждае­

мые

методы.

Основными

их

IJелями

являются:

-

снижение

размерности

признакового

пространства

путем

выявления

статистически

значимых

линейных

комбинаIJИЙ

не­

скольких

признаков

(анализ

главных

компонент);

ров,

-

изучение

взаимосвязи

признаков путем выявления факто­

 

определяющих

дисперсию признаков (факторный анализ).

 

 

 

Проведение

статистического

анализа

этих

видов

является

дос­

таточно

сложным,

поэтому

мы

рекомендуем

обращаться

за

по­

мощью к спеIJиалистам

в области прикладной

спеIJиальной литературе

[24, 30-32].

статистики

или

к

13.5.

Многофакторный

анализ

объектов

исследования

с

пропущенными

значениями

Если в требуется

исследовании

ставится

задача, для решения которой

использование

методов

многомерного анализа дан­

ных,

рекомендуется

ОIJенить

имеющиеся

данные

с

двух

точек

зрения.

Во-первых,

общей

рекомендаIJией

при

построении

статисти­

ческих моделей является следующая: число

должно СУliJественно (хотя бы в 3-5 раз

объектов исследования

для каждой из групп)

превышать

число

признаков,

включаемых

в

многофакторный

ана­

лиз. Если данное условие не выполняется, сказать, что полученная модель окажется

почти наверняка можно неустойчивой, т.е. нера­

ботоспособной

на других наборах данных.

Во-вторых,

при многофакторном анализе

данных

(одно­

временном

анализе

нескольких

признаков)

в

большинстве

ис­

следований

возникает

следующая

проблема:

у

значительной

доли

объектов

исследования

отсутствуют

данные

по

какому-либо

208

Глава 13. Многофакторный анализ данных

одному или даже нескольким признакам. Такая ситуаgия дос­

таточно типична для клинических исследований, где бывает

весьма трудоемко (или дорого) провести одинаково подроб­

ное обследование всех больных, включенных в выборку. Это

особенно касается не проспективных исследований, проводя­

щихся в большинстве случаев по заранее разработанному про­

токолу, а ретроспективных исследований, в которых анализи­

руются архивные данные.

В случае одномерного анализа объект исследования, для кото­ рого информаgия о каком-либо признаке отсутствует, не участ­

вует в анализе именно по этому признаку, а участвует по тем

признакам, которые у него имеются.

При двумерном анализе (как мы уже описывали в главе 12)

из анализа исключаются объекты исследования, у которых отсут­ ствуют значение хотя бы по одному из пары анализируемых при­

знаков.

При многофакторном анализе объект исследования, у кото­ рого отсутствуют данные хотя бы по одному признаку из числа

включенных в анализ (регрессионный, дискриминантный и др.), та1оке исключается из анализа1 • Обычно оказывается, что доля

объектов исследования, у которых отсутствуют данные хотя бы по одному из признаков, достаточно велика. Таким образом, чис­

ло объектов исследования, которые могут участвовать в много­

факторном анализе, оказывается гораздо меньше общего числа объектов исследования. Иногда их оказывается просто мало. Так, при числе объектов исследования меньше 20 в каждой из групп многомерный анализ проводить вообще бесперспективно.

Существует возможность преодоления этой проблемы. В ряде

ППП существует возможность заполнения пропусков в данных

несколькими способами, например:

пропуски заменяются средними по группе (предлагается в

ППП STAТISТICA);

пропуски заменяются значениями регрессионной функgии.

Такие алгоритмы хотя и привлекательны, но дают слишком

оптимистические результаты, которые обычно потом не подтвер­

)J<Даются при проверке работоспособности математической мо­

дели.

1 Анализ обычно проводится в режиме casewise deletion, т.е. при наличии пропуска в

данных хотя бы по одному признаку объект исследования исключается из анализа.

209

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение