Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных

.pdf
Скачиваний:
9
Добавлен:
24.03.2024
Размер:
15.15 Mб
Скачать

Статистический анализ медицинских данных ...

Возможна и обратная ситуаgия, когда статистически незна­

чимый результат может оказаться клинически значимым. Такие

результаты часто получают на небольших выборках. Например,

какой-либо новый хирургический прием позволяет снизить ле­

тальность на 30с:;'0, хотя результат и не является статистически

значимым. Однако новый факт наверняка заставит исследовате­ лей продолжить работу в этом направлении.

Следует таюке помнить о том, что интерпретаgия результата

как клинически значимого или незначимого зависит от содержа­

тельного вопроса исследования. Так, если какой-либо препарат

позволяет снизить на 50% частоту эпилептических приступов у

некоторых больных, а на других никак не действует, то он вряд ли может рассматриваться как препарат выбора по отношению к

другому лекарственному средству, применение которого позволяет

снизить частоту приступов на 20%, но зато у всех больных. Указа­

ние значения р в такой ситуаgии может оказаться совершенно недостаточным для ОIJенки клинической значимости результатов исследования. Именно в этих случаях полезно приводить ДИ для

основных результатов.

5.5. Первичный и вторичный анализ

даннь1х

Различают два типа статистического анализа данных - пер­

вичный (запланированный) и вторичный (незапланирован­ ный).

Пер6ичный анализ даннмх - это изучение биологических

и медиgинских закономерностей, существование которых пред­ полагается исследователем и которые являются собственно пред­ метом исследования. Перечень задач исследования должен вклю­

чать описание признаков, изучение которых учтено при планиро­

вании исследования. Первичный анализ данных служит обычно для проверки заранее (априори) сформулированных научных

гипотез исследователя.

Однако в связи с тем что получение данных в области клини­

ческой медиgины сопряжено со значительными организаgион­

ными, временнь1ми, финансовыми затратами, обычно у исследо­

вателя возникает стремление сделать анализ всех данных настоль­

ко полно, чтобы можно было выявить и заранее неизвестные (и не предполагавшиеся) закономерности. Такой анализ данных

70

Глава 5. Основные принципы ...

называется просеивание данных1 " и обычно квалифиIJируется

как исследовательский, поисковый, разведочный, Вторичный. Ре­ зультаты такого анализа следует интерпретировать более осто­

рожно. Осторожность должна соблюдаться в связи тем что ре­

зультаты вторичного анализа в большинстве случаев не свободны от систематических ошибок в связи с несопоставимостью под­ групп и другими факторами. Несопоставимость групп является

естественным следствием того, что априори неизвестные законо­

мерности не могли быть учтены при планировании исследова­

ния. Результаты вторичного анализа данных не могут служить в качестве доказательств той или иной научной гипотезы, но обыч­

но воспринимаются как основание для выдвижения научных ги­

потез.

5.6. Классификация статистических

методов

Методы статистического анализа данных принято классифи­

IJИровать по нескольким принIJипам.

1.По количеству анализируемых признаков:

-одномерные (анализ каждого признака в отдельности);

-двухмерные (одновременный анализ двух признаков, напри-

мер анализ связей изучаемых признаков - accoIJИaIJИИ или

корреляIJии);

-многофакторные (анализ трех признаков и более одновремен­

но, например многофакторный дисперсионный анализ, много­

факторный регрессионный анализ, дискриминантный анализ).

2. По статистическим принIJИпам, лежащим в основе ме-

тодов:

параметрические. Применяются главным образом для анали­

за нормально распределенных количественных признаков;

непараметрические. Применяются в остальных случаях:

а) для анализа количественных признаков независимо от вида

их распределения;

б) для анализа качественных признаков.

В IJелом непараметрические методы (в случае использова­ ния их на малых выборках) являются менее мощными по срав­

нению с параметрическими, т.е. иногда не позволяют выявить

1 Data dredging (англ.).

71

Статистический анализ медицинских данных ...

статистические закономерности, которые могут быть выявле­ ны с помощью параметрических методов. В то же время непа­ раметрические методы более надежны в случаях, когда есть сомнения в том, что анализируемый признак имеет нормаль­ ное распределение. Для нормально распределенных признаков параметрические и непараметрические методы дают близкие

результаты.

3. По возможности учета имеющихся априори предполо­

жений:

-односторонние тесты. Это тесты, учитывающие исходное (ап­ риорное) предположение о том, что в одной из групп рас­ пределение признака смещено в определенную сторону (в

сторону увеличения либо уменьшения) по отношению к дру­

гой. Однако для того чтобы воспользоваться таким тестом,

необходимо обосновать свое предположение;

двусторонние тесты. Эти тесты используются в отсутствие

исходного (априорного) предположения о том, что в одной

из групп распределение признака смещено в определенную

сторону (в сторону уменьшения или увеличения) по отноше­

нию к другой. Вычисляемое при этом значение р обычно при­

мерно в 2 раза больше, чем для одностороннего теста. Дву­

сторонние тесты рекомендуется использовать как можно шире.

4. По зависимости или независимости сопоставляем:Ь~х

выборок:

тесты для независимых выборок. Используются в случае, если при формировании выборок объекты исследования набирались

в группы независимо друг от друга (например, были рандоми­

зированы в две группы или лечились в разных больниqах);

тесты для зависимых выборок. Используются в двух случаях:

а) когда в динамике анализируются данные, полученные в

одной группе больных (например, до и после лечения);

б) когда анализируются выборки, сформированные путем подбора пар по полу, возрасту, стадии заболевания и т.д.

Классификаgия наиболее важных статистических методов, которая может быть использована при выборе теста для решения

конкретной задачи, представлена на рис. 5.3.

Заметим, что для двухмерного и одномерного анализа пара­

метрические методы могут применяться лишь при условии, что

все анализируемые одновременно признаки являются нормально

распределенными. В противном случае должны применяться не-

72

Задача

Выполнение

описательной

статистики

Сравнение двух

независимых rрупп

по одному признаку

Сравнение двух

зависимых rрупп

по одному признаку

Сравнение трех

независимых rрупп

и более по одному

признаку

Сравнение трех

зависимых rрупп

и более по одному

признаку

Анализ взаимосвязи

двух признаков

ОднQвременный

анализ трех

признаков и более

Глава 5. Основные принципы ...

Методы

параметрические

(для количественных

нормально

распределенных

признаков)

Вычисление средних

значений, средних

квадратических

отклонений и т.д.

t-критерий Стьюдента

для независимых

выборок

!-критерий Стьюдента

для зависимых

выборок

ANOVA

Критерий Кокрана

Корреляционный анализ по Пирсону

непараметрические

(для количественных

признаков независимо

от вида распределения,

атакже для качественных

-порядковых или

номинальных -

признаков)

Вычисление медиан

и интерквартильных

интервалов, пропорций

Критерии МаннаУитни, КолмогороваСмирнова, Вальда-

Вольфовица, х2 • точный

критерий Фишера

Критерий Вилкоксона,

критерий знаков,

критерий МакНемара

ANOVA по КраскелуУоллису, медианный критерий, критерий х2

ANOVA по Фридмену, критерий Кокрана

Критерий х2

корреляционный анализ

по Спирмену, Кендаллу,

гамма и др.

Регрессионный

Логистический

анализ

регрессионный анализ,

Дискриминантный

логлинейный анализ,

анализ

анализ древовидных

Факторный анализ

диаграмм, анализ

Кластерный анализ

конъюнкций и др.

Рис. 5.3. Рекомендуемые к использованию статистические кри­

терии (методы) в зависимости от задачи исследования и типа

данных.

73

Статистический анализ медицинских данных ...

параметрические методы. Например, если исследователя интере­

сует корреляIJИЯ двух признаков, один из которых является нор­

мально распределенным, а второй - нет, то следует использовать

непараметрические методы анализа корреЛЯIJИИ (Спирмена, Кен­

далла, гамма).

Наше дальнейшее изложение построено в соответствии с ло­ гикой, которой рекомендуется придерживаться при анализе дан­

ных оригинальных исследований - от более простых методов к

более сложным.

.Обычно перед исследователем встает ряд вопросов, для отве­

та на которые необходимо воспользоваться рiзличными метода­

ми статистического анализа данных. Заметим однако, что в од­

ном исследовании для решения его задач необходимо использо­

вать как можно меньшее число различных методов. Чрезмерное увлечение разнообразными способами анализа данных не оправ­ дано. Анализ данных не может быть самоIJелью, он служит лишь

для выдвижения или проверки научных гипотез. В конечном сче­ те объем и глубина анализа данных во многом определяются зна­

ниями и навыками того, кто непосредственно выполняет этот

этап исследования.

74

Глава 6. Методы статистического

анализа, содержащиеся в пакете

прикладных программ STATISTICA

ППП STАТISТICA состоит из 24 модулей:

-

Основные статистики и таблиgы

f

-

Непараметрические статистики

•\t

-

Дисперсионный анализ (ANOVA/MANOVA)

:f

 

Множественный регрессионный анализ

'':{

 

Нелинейное оgенивание

\f

 

Временнь1е ряды и прогнозирование

 

 

Кластерный анализ

":f

 

Управление данными

\f

 

Факторный анализ

\f

 

Канонический анализ

 

 

Многомерное шкалирование

 

 

Деревья классификаgии

 

 

Анализ соответствий

 

 

Структурное моделирование

 

 

Надежность и позиgионный анализ

 

 

Дискриминантный анализ

"-:{

 

Лоrлинейный анализ

 

 

Анализ выживаемости (анализ времени

 

 

до насгупления исхода)

 

 

Карты контроля качества

 

-Анализ проgессов

·Компоненты дисперсионного анализа

-Планирование эксперимента

Командный язык

Сервер файлов системы STАТISТICA

Каждый из модулей представляет собой набор статистиче­ ских методов для решения той или иной исследовательской зада­

чи. В данном издании мы останавливаемся лишь на тех из них,

75

Глава 7. Описание количественных

признаков

Для описания количественных признаков используют так на­

зываемые описательные статистики, т.е. параметры распределе­

ния. Если исследование проведено с использованием малой выбор­ ки, то в таком случае необходимо приводить в тексте статьи или

отчета таблиЧУ данных. При этом зачастую отсутствует необходи­

мость в описательной статистике.

Для того чтобы выбрать способ описания количественного

признака, следует сначала установить, соответствует ли вид рас­

пределения значений изучаемого признака закону нормального

распределения.

7.1. Анализ соответствия вида

распределения признака закону

нормального распределения

Первым этапом анализа количественных данных является анализ вида их распределения. Реально ни в одной выборке не может быть строго нормального распределения признака. Одна~ ко необходимо установить, отобрана ли эта выборка из генераль­ ной совокупности, в которой изучаемый признак имеет нормаль­

ное распределение. Для простоты мы далее будем считать, что

вид распределения признака в генеральной совокупности уста­

новлен по выборке.

Существуют несколько способов решения этой задачи. Пер­ вые два помогают визуально оgенить близость распределения дан­

ного признака к нормальному:

Первый способ. Построить гистограмму распределения при­

знака. Для этого в таблиgе данных достаточно щелкнуть правой

кнопкой мыши на шапку соответствующего столбgа, выбрать

опgию "Быстрые стат. графики" ("Quick stats graphs"), затем последовательно опgии "Гистограмма" ( "Histogram of ... ") и

77

Статистический анализ медицинских данных ...

"Нормальная подгонка" ("Normal fit"). После этого можно ви­

:Jуально ОIJенить, насколько диаграмма близка к колоколу нор­

мального распределения, прорисованному красной линией.

Второй способ. Можно построить график фующии распре­

деления в спеgиальных координатах. Из этого же меню "Быст­ рые стат. графики" ("Quick stats graphs") выбираются опgия "Вероятностный график" ( "ProbaЫlity plot of "."), а затем оп4ия "Нормальный" ("Normal probaЫlity"). После этого можно

также визуально оgенить, насколько близко к прямой лежат точ­ ки, отражающие отдельные объекты исследования.

Однако оба эти способа лишь качественные. Одним из коли­ 'Iественных способов является оgенка симметричности распреде­

ления признаков, имеющих только положительные значения, т.е.

третий способ. Если s< м/ 2 (среднее квадратическое отклоне­

ние меньше половины среднего арифметического), то распреде­ ление можно считать симметричным (симметричность - одна

из основных характеристик нормального распределения).

Однако третий способ не позволяет оgенить эксgесс - сте­ нень крутизны графика, или его плосковершинность. Поэтому для получения надежной оgенки соответствия изучаемого рас­

пределения признака закону нормального распределения следует

поль:юваться четвертым способом - проверкой статистиче­

ских гипотез о виде распределения, т.е. о том, извлечена ли вы­

борка из генеральной совокупности, в которой изучаемый при­ шак имеет нормальное (гауссово) распределение. Ведь от вща

распределения зависят как выбор способа описания gентральной тенденgии и рассеяния значений признака, так и выбор методов

дальнейшего анализа данных. По результатам анализа можно

принять одну из гипотез:

нулевую гипотезу (о том, что распределение исследуемого

признака в генеральной совокупности соответствует закону нормального распределения);

альтернативную гипотезу (о том, что распределение иссле­

дуемого признака в генеральной совокупности не соответст­

вует закону нормального распределения).

Для принятия решения о виде 'распределения можно приме-

нять следующие критерии:

Колмогорова-Смирнова. Применяется в тех случаях, когда

среднее значение и среднее квадратическое отклонение при­

:шака известны априори, а не вычисляются по выборке;

78

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение