5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных
.pdfСтатистический анализ медицинских данных ...
Возможна и обратная ситуаgия, когда статистически незна
чимый результат может оказаться клинически значимым. Такие
результаты часто получают на небольших выборках. Например,
какой-либо новый хирургический прием позволяет снизить ле
тальность на 30с:;'0, хотя результат и не является статистически
значимым. Однако новый факт наверняка заставит исследовате лей продолжить работу в этом направлении.
Следует таюке помнить о том, что интерпретаgия результата
как клинически значимого или незначимого зависит от содержа
тельного вопроса исследования. Так, если какой-либо препарат
позволяет снизить на 50% частоту эпилептических приступов у
некоторых больных, а на других никак не действует, то он вряд ли может рассматриваться как препарат выбора по отношению к
другому лекарственному средству, применение которого позволяет
снизить частоту приступов на 20%, но зато у всех больных. Указа
ние значения р в такой ситуаgии может оказаться совершенно недостаточным для ОIJенки клинической значимости результатов исследования. Именно в этих случаях полезно приводить ДИ для
основных результатов.
5.5. Первичный и вторичный анализ
даннь1х
Различают два типа статистического анализа данных - пер
вичный (запланированный) и вторичный (незапланирован ный).
Пер6ичный анализ даннмх - это изучение биологических
и медиgинских закономерностей, существование которых пред полагается исследователем и которые являются собственно пред метом исследования. Перечень задач исследования должен вклю
чать описание признаков, изучение которых учтено при планиро
вании исследования. Первичный анализ данных служит обычно для проверки заранее (априори) сформулированных научных
гипотез исследователя.
Однако в связи с тем что получение данных в области клини
ческой медиgины сопряжено со значительными организаgион
ными, временнь1ми, финансовыми затратами, обычно у исследо
вателя возникает стремление сделать анализ всех данных настоль
ко полно, чтобы можно было выявить и заранее неизвестные (и не предполагавшиеся) закономерности. Такой анализ данных
70
Глава 5. Основные принципы ...
называется просеивание данных1 " и обычно квалифиIJируется
как исследовательский, поисковый, разведочный, Вторичный. Ре зультаты такого анализа следует интерпретировать более осто
рожно. Осторожность должна соблюдаться в связи тем что ре
зультаты вторичного анализа в большинстве случаев не свободны от систематических ошибок в связи с несопоставимостью под групп и другими факторами. Несопоставимость групп является
естественным следствием того, что априори неизвестные законо
мерности не могли быть учтены при планировании исследова
ния. Результаты вторичного анализа данных не могут служить в качестве доказательств той или иной научной гипотезы, но обыч
но воспринимаются как основание для выдвижения научных ги
потез.
5.6. Классификация статистических
методов
Методы статистического анализа данных принято классифи
IJИровать по нескольким принIJипам.
1.По количеству анализируемых признаков:
-одномерные (анализ каждого признака в отдельности);
-двухмерные (одновременный анализ двух признаков, напри-
мер анализ связей изучаемых признаков - accoIJИaIJИИ или
корреляIJии);
-многофакторные (анализ трех признаков и более одновремен
но, например многофакторный дисперсионный анализ, много
факторный регрессионный анализ, дискриминантный анализ).
2. По статистическим принIJИпам, лежащим в основе ме-
тодов:
параметрические. Применяются главным образом для анали
за нормально распределенных количественных признаков;
непараметрические. Применяются в остальных случаях:
а) для анализа количественных признаков независимо от вида
их распределения;
б) для анализа качественных признаков.
В IJелом непараметрические методы (в случае использова ния их на малых выборках) являются менее мощными по срав
нению с параметрическими, т.е. иногда не позволяют выявить
1 Data dredging (англ.).
71
Статистический анализ медицинских данных ...
статистические закономерности, которые могут быть выявле ны с помощью параметрических методов. В то же время непа раметрические методы более надежны в случаях, когда есть сомнения в том, что анализируемый признак имеет нормаль ное распределение. Для нормально распределенных признаков параметрические и непараметрические методы дают близкие
результаты.
3. По возможности учета имеющихся априори предполо
жений:
-односторонние тесты. Это тесты, учитывающие исходное (ап риорное) предположение о том, что в одной из групп рас пределение признака смещено в определенную сторону (в
сторону увеличения либо уменьшения) по отношению к дру
гой. Однако для того чтобы воспользоваться таким тестом,
необходимо обосновать свое предположение;
двусторонние тесты. Эти тесты используются в отсутствие
исходного (априорного) предположения о том, что в одной
из групп распределение признака смещено в определенную
сторону (в сторону уменьшения или увеличения) по отноше
нию к другой. Вычисляемое при этом значение р обычно при
мерно в 2 раза больше, чем для одностороннего теста. Дву
сторонние тесты рекомендуется использовать как можно шире.
4. По зависимости или независимости сопоставляем:Ь~х
выборок:
тесты для независимых выборок. Используются в случае, если при формировании выборок объекты исследования набирались
в группы независимо друг от друга (например, были рандоми
зированы в две группы или лечились в разных больниqах);
тесты для зависимых выборок. Используются в двух случаях:
а) когда в динамике анализируются данные, полученные в
одной группе больных (например, до и после лечения);
б) когда анализируются выборки, сформированные путем подбора пар по полу, возрасту, стадии заболевания и т.д.
Классификаgия наиболее важных статистических методов, которая может быть использована при выборе теста для решения
конкретной задачи, представлена на рис. 5.3.
Заметим, что для двухмерного и одномерного анализа пара
метрические методы могут применяться лишь при условии, что
все анализируемые одновременно признаки являются нормально
распределенными. В противном случае должны применяться не-
72
Задача
Выполнение
описательной
статистики
Сравнение двух
независимых rрупп
по одному признаку
Сравнение двух
зависимых rрупп
по одному признаку
Сравнение трех
независимых rрупп
и более по одному
признаку
Сравнение трех
зависимых rрупп
и более по одному
признаку
Анализ взаимосвязи
двух признаков
ОднQвременный
анализ трех
признаков и более
Глава 5. Основные принципы ...
Методы
параметрические
(для количественных
нормально
распределенных
признаков)
Вычисление средних
значений, средних
квадратических
отклонений и т.д.
t-критерий Стьюдента
для независимых
выборок
!-критерий Стьюдента
для зависимых
выборок
ANOVA
Критерий Кокрана
Корреляционный анализ по Пирсону
непараметрические
(для количественных
признаков независимо
от вида распределения,
атакже для качественных
-порядковых или
номинальных -
признаков)
Вычисление медиан
и интерквартильных
интервалов, пропорций
Критерии МаннаУитни, КолмогороваСмирнова, Вальда-
Вольфовица, х2 • точный
критерий Фишера
Критерий Вилкоксона,
критерий знаков,
критерий МакНемара
ANOVA по КраскелуУоллису, медианный критерий, критерий х2
ANOVA по Фридмену, критерий Кокрана
Критерий х2 •
корреляционный анализ
по Спирмену, Кендаллу,
гамма и др.
Регрессионный |
Логистический |
анализ |
регрессионный анализ, |
Дискриминантный |
логлинейный анализ, |
анализ |
анализ древовидных |
Факторный анализ |
диаграмм, анализ |
Кластерный анализ |
конъюнкций и др. |
Рис. 5.3. Рекомендуемые к использованию статистические кри
терии (методы) в зависимости от задачи исследования и типа
данных.
73
Статистический анализ медицинских данных ...
параметрические методы. Например, если исследователя интере
сует корреляIJИЯ двух признаков, один из которых является нор
мально распределенным, а второй - нет, то следует использовать
непараметрические методы анализа корреЛЯIJИИ (Спирмена, Кен
далла, гамма).
Наше дальнейшее изложение построено в соответствии с ло гикой, которой рекомендуется придерживаться при анализе дан
ных оригинальных исследований - от более простых методов к
более сложным.
.Обычно перед исследователем встает ряд вопросов, для отве
та на которые необходимо воспользоваться рiзличными метода
ми статистического анализа данных. Заметим однако, что в од
ном исследовании для решения его задач необходимо использо
вать как можно меньшее число различных методов. Чрезмерное увлечение разнообразными способами анализа данных не оправ дано. Анализ данных не может быть самоIJелью, он служит лишь
для выдвижения или проверки научных гипотез. В конечном сче те объем и глубина анализа данных во многом определяются зна
ниями и навыками того, кто непосредственно выполняет этот
этап исследования.
74
Глава 6. Методы статистического
анализа, содержащиеся в пакете
прикладных программ STATISTICA
ППП STАТISТICA состоит из 24 модулей:
- |
Основные статистики и таблиgы |
f |
- |
Непараметрические статистики |
•\t |
- |
Дисперсионный анализ (ANOVA/MANOVA) |
:f |
|
Множественный регрессионный анализ |
'':{ |
|
Нелинейное оgенивание |
\f |
|
Временнь1е ряды и прогнозирование |
|
|
Кластерный анализ |
":f |
|
Управление данными |
\f |
|
Факторный анализ |
\f |
|
Канонический анализ |
|
|
Многомерное шкалирование |
|
|
Деревья классификаgии |
|
|
Анализ соответствий |
|
|
Структурное моделирование |
|
|
Надежность и позиgионный анализ |
|
|
Дискриминантный анализ |
"-:{ |
|
Лоrлинейный анализ |
|
|
Анализ выживаемости (анализ времени |
|
|
до насгупления исхода) |
|
|
Карты контроля качества |
|
-Анализ проgессов
·Компоненты дисперсионного анализа
-Планирование эксперимента
Командный язык
Сервер файлов системы STАТISТICA
Каждый из модулей представляет собой набор статистиче ских методов для решения той или иной исследовательской зада
чи. В данном издании мы останавливаемся лишь на тех из них,
75
Глава 7. Описание количественных
признаков
Для описания количественных признаков используют так на
зываемые описательные статистики, т.е. параметры распределе
ния. Если исследование проведено с использованием малой выбор ки, то в таком случае необходимо приводить в тексте статьи или
отчета таблиЧУ данных. При этом зачастую отсутствует необходи
мость в описательной статистике.
Для того чтобы выбрать способ описания количественного
признака, следует сначала установить, соответствует ли вид рас
пределения значений изучаемого признака закону нормального
распределения.
7.1. Анализ соответствия вида
распределения признака закону
нормального распределения
Первым этапом анализа количественных данных является анализ вида их распределения. Реально ни в одной выборке не может быть строго нормального распределения признака. Одна~ ко необходимо установить, отобрана ли эта выборка из генераль ной совокупности, в которой изучаемый признак имеет нормаль
ное распределение. Для простоты мы далее будем считать, что
вид распределения признака в генеральной совокупности уста
новлен по выборке.
Существуют несколько способов решения этой задачи. Пер вые два помогают визуально оgенить близость распределения дан
ного признака к нормальному:
Первый способ. Построить гистограмму распределения при
знака. Для этого в таблиgе данных достаточно щелкнуть правой
кнопкой мыши на шапку соответствующего столбgа, выбрать
опgию "Быстрые стат. графики" ("Quick stats graphs"), затем последовательно опgии "Гистограмма" ( "Histogram of ... ") и
77
Статистический анализ медицинских данных ...
"Нормальная подгонка" ("Normal fit"). После этого можно ви
:Jуально ОIJенить, насколько диаграмма близка к колоколу нор
мального распределения, прорисованному красной линией.
Второй способ. Можно построить график фующии распре
деления в спеgиальных координатах. Из этого же меню "Быст рые стат. графики" ("Quick stats graphs") выбираются опgия "Вероятностный график" ( "ProbaЫlity plot of "."), а затем оп4ия "Нормальный" ("Normal probaЫlity"). После этого можно
также визуально оgенить, насколько близко к прямой лежат точ ки, отражающие отдельные объекты исследования.
Однако оба эти способа лишь качественные. Одним из коли 'Iественных способов является оgенка симметричности распреде
ления признаков, имеющих только положительные значения, т.е.
третий способ. Если s< м/ 2 (среднее квадратическое отклоне
ние меньше половины среднего арифметического), то распреде ление можно считать симметричным (симметричность - одна
из основных характеристик нормального распределения).
Однако третий способ не позволяет оgенить эксgесс - сте нень крутизны графика, или его плосковершинность. Поэтому для получения надежной оgенки соответствия изучаемого рас
пределения признака закону нормального распределения следует
поль:юваться четвертым способом - проверкой статистиче
ских гипотез о виде распределения, т.е. о том, извлечена ли вы
борка из генеральной совокупности, в которой изучаемый при шак имеет нормальное (гауссово) распределение. Ведь от вща
распределения зависят как выбор способа описания gентральной тенденgии и рассеяния значений признака, так и выбор методов
дальнейшего анализа данных. По результатам анализа можно
принять одну из гипотез:
нулевую гипотезу (о том, что распределение исследуемого
признака в генеральной совокупности соответствует закону нормального распределения);
альтернативную гипотезу (о том, что распределение иссле
дуемого признака в генеральной совокупности не соответст
вует закону нормального распределения).
Для принятия решения о виде 'распределения можно приме-
нять следующие критерии:
Колмогорова-Смирнова. Применяется в тех случаях, когда
среднее значение и среднее квадратическое отклонение при
:шака известны априори, а не вычисляются по выборке;
78