Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
2
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

Статистический анализ данных в медицинских исследованиях

Рецензенты:

М.С.Абрамович, канд. физ-мат. наук, доцент, зав. НИЛ статистического анализа и моделирования НИИ прикладных проблем информатики Белгосуниверситета.

Н.Н. Савва, кандидат медицинских наук, доцент, доцент 1-ой кафедры детских болезней Минского государственного медицинского университета главный внештатный специалист по паллиативной помощи детям Минздрава РБ.

 

Содержание

 

Статистический анализ данных................................................................................................................

1

Содержание .........................................................................................................................................................

2

Часть 1

......................................................................................................................................................................

6

Введение................................................................................................................................................................

6

1. Общий ..................подход к построению исследования в доказательной медицине

8

2. Основные ........................................................................................типы дизайна исследований

9

2.1. ...........................................................................................................

Когортное исследование

10

2.2. .............................................................................................

Исследование случай - контроль

12

2.3. ...............................................................................................

Одномоментное исследование

13

2.4.Экспериментальные или рандомизированные клинические исследования 15

2.5. Общие замечания по дизайну исследований..................................................................

16

2.6. Понятие исхода и риска..............................................................................................................

19

2.7. Подход к анализу рисков при бинарных исходах.........................................................

19

2.7.1. Относительный риск в естественной выборке.....................................................

19

2.7.2. Отношение шансов для целевых выборок ..............................................................

20

2.7.3. Взаимосвязь между относительным риском и отношением шансов........

21

2.8.Подходы к анализу рисков при множественных исходах и нескольких

 

уровнях фактора .........................................................................................................................................

21

Основные аспекты..........................................................................................................................................

22

3. Переменные исследования и типы данных.............................................................................

23

 

3.1.

Переменные исследования.......................................................................................................

23

 

3.2. Типы данных в исследованиях...............................................................................................

23

Основные аспекты..........................................................................................................................................

26

4.

Гипотеза исследования ......................................................................................................................

27

 

4.1. Ошибки I и II рода при проверке гипотез.........................................................................

27

 

4.2.

Понятие уровня значимости ...................................................................................................

27

 

4.3. Этапы проверки статистических гипотез ........................................................................

28

 

4.4. Мощность исследования и расчет объемов выборок.................................................

29

 

4.5. Понятие надежности и валидности исследования......................................................

34

Основные аспекты..........................................................................................................................................

37

5.

Сбор данных .............................................................................................................................................

38

Основные аспекты..........................................................................................................................................

40

6.

Основные виды распределений.....................................................................................................

41

 

6.1.

Непрерывные распределения.................................................................................................

41

 

6.2.

Дискретные распределения.....................................................................................................

44

Основные аспекты..........................................................................................................................................

46

7.

Предварительный анализ данных ...............................................................................................

47

 

7.1. Основные характеристики данных в предварительном анализе........................

47

 

7.1.1.

Количественные переменные........................................................................................

47

 

7.1.2. Номинальные и категориальные переменные.....................................................

49

 

7.1.3.

Характеристика времен наблюдения ........................................................................

49

 

7.1.4. Точечные оценки и доверительные интервалы ..................................................

50

 

7.1.5. Представление данных в исследованиях.................................................................

55

 

7.2.

Графическое представление данных ..................................................................................

56

 

7.2.1.

Количественные данные ..................................................................................................

56

 

7.2.2.

Качественные данные........................................................................................................

60

 

7.3.

Описание переменной исследования..................................................................................

60

 

7.4. Выбор переменной, связанной с исходом.........................................................................

63

Основные аспекты..........................................................................................................................................

63

 

 

 

 

2

8.Унивариантный анализ: сравнение с пороговым значением,

доверительные интервалы........................................................................................................................

64

Основные аспекты..........................................................................................................................................

70

9. Унивариантный анализ пар.............................................................................................................

72

9.1.

Биноминальная переменная ...................................................................................................

72

9.2.

Мультиноминальная переменная ........................................................................................

75

9.3.

Количественная переменная ..................................................................................................

78

9.4. Схемы унивариантного анализа пар...................................................................................

80

Основные аспекты..........................................................................................................................................

81

10. Бивариантный анализ: взаимосвязь двух переменных ................................................

82

10.1.

Диаграмма рассеяния..............................................................................................................

82

10.2.

Меры ассоциации ......................................................................................................................

83

10.2.1.

Коэффициент корреляции Пирсона .......................................................................

83

10.2.2.

Коэффициент ранговой корреляции Спирмена...............................................

85

10.2.3.

Коэффициент ранговой корреляции τ (Тау) Кендалла ...............................

85

10.2.4.

Коэффициенты сопряженности................................................................................

86

10.2.5.

Коэффициент τ Гудмана-Краскела ........................................................................

87

10.2.6.

Тест Фишера-Фримана-Халтона...............................................................................

88

10.2.7.

Коэффициент детерминации.....................................................................................

88

10.2.8.

Непараметрическая однофакторная ANOVA......................................................

88

10.2.9.

Точечно-бисериальная корреляция и сравнение двух групп...................

88

10.2.10.

Точный тест Фишера......................................................................................................

89

10.3. Таблица мер ассоциации и взаимосвязи.......................................................................

89

Основные аспекты..........................................................................................................................................

91

11. Бивариантый анализ: биноминальная и биноминальная переменные...............

92

11.1.1.Чувствительность и специфичность тестов,

прогностическая ценность...............................................................................................................

92

11.1.2.

Оценка мер риска при изучении фактора риска и исхода ..........................

94

11.1.3.

Оценка эффективности лечения ..............................................................................

98

11.1.4.Обнаружение различий в пропорциях двух групп на основе

доверительных интервалов.............................................................................................................

99

11.1.5. Тесты таблиц 2 2 .........................................................................................................

102

Основные аспекты........................................................................................................................................

104

12. Бивариантый анализ: биноминальная и количественная переменные.............

105

Тест Стьюдента для независимых выборок ...................................................................................

108

12.1. Анализ двух групп: Характеристическая кривая

 

(receiver operating characteristic(ROC) curve) .............................................................................

109

12.2. Анализ двух групп: расстояние между группами...................................................

113

Основные аспекты........................................................................................................................................

113

13.Бивариантный анализ: биноминальная и мультиноминальная

переменные (таблицы 2 c ) ...................................................................................................................

115

Основные аспекты........................................................................................................................................

118

14.Бивариантый анализ: мультиноминальная и мультиноминальная

переменные (таблицы r c )....................................................................................................................

119

Основные аспекты........................................................................................................................................

125

15.Бивариантый анализ: мультиноминальная и количественная

переменные – анализ нескольких групп ..........................................................................................

127

15.1. Однофакторная ANOVA (Однофакторный дисперсионный анализ)............

127

15.2.

Непараметрическая ANOVA ...............................................................................................

129

15.3.

Общие замечания ....................................................................................................................

129

Основные аспекты........................................................................................................................................

130

 

 

3

Часть 2.................................................................................................................................................................

 

 

131

16.

Линейная регрессия .......................................................................................................................

131

16.1.

Простая линейная регрессионная модель.................................................................

131

 

16.1.1.

Корреляция vs регрессия............................................................................................

136

16.2.

Линейная регрессия с бинарным предиктором......................................................

136

16.3.

Линейная регрессия с мультиноминальным предиктором .............................

137

16.4.

Линейная регрессионная модель с несколькими предикторами..................

138

16.5.

Понятие конфаундера, ковариационный анализ...................................................

139

16.6.

Взаимодействие предикторов в линейной модели ..............................................

141

16.7.

F-критерий в линейной регрессии.................................................................................

145

16.8.

Анализ остатков.......................................................................................................................

146

 

16.8.1.

Предположение линейности модели...................................................................

146

 

16.8.2.

Предположение независимости остатков.........................................................

147

 

16.8.3.

Предположение о гомоскедастичности..............................................................

147

 

16.8.4. Предположение о нормальности распределения ошибки .......................

148

 

16.8.5. Диагностика выбросов и аномальных наблюдений в регрессии .........

149

16.9.

Преобразование переменных ...........................................................................................

152

16.10.

Примеры построения линейной регрессии...............................................................

155

Основные аспекты........................................................................................................................................

173

17.

Логистическая регрессия.............................................................................................................

174

17.1.

Логистическая регрессия с бинарным предиктором...........................................

175

17.2.

Логистическая регрессия с мультиноминальным предиктором ..................

176

17.3.

Пример построения логистической регрессии .......................................................

176

17.4.

Логистическая регрессия с количественным предиктором ............................

178

17.5.

Интерпретация параметра β0 в логистической регрессии..............................

178

17.6.

Взаимодействие предикторов в логистической регрессии..............................

179

17.7.

Стратифицированный анализ серии таблиц 2 х 2.................................................

180

17.8.

Пример анализа взаимодействия с помощью таблиц 2 x 2...............................

182

17.9.

Проверка предположений модели логистической регрессии.........................

186

 

17.9.1. Тестирование гипотез логистической регрессии .........................................

186

 

17.9.2.

Диагностика логистической регрессии..............................................................

188

17.9.3.Предположения о линейности количественных переменных

в логистической регрессии ............................................................................................................

189

17.9.4. Пример анализа линейности количественной переменной ...................

189

17.10.

Вычислительные проблемы..............................................................................................

191

17.11.

Замечания по использованию логистической регрессии..................................

192

Основные аспекты........................................................................................................................................

193

18. Анализ выживаемости ..................................................................................................................

194

18.1.

Понятие цензурированных данных, событий и времен наблюдения.........

194

18.2.

Функция выживаемости......................................................................................................

196

18.3.

Сравнение групп по выживаемости ..............................................................................

199

18.4.

Понятие функции риска ......................................................................................................

200

18.5.

Регрессионная модель пропорциональных рисков Кокса ................................

202

18.6.

Регрессия Кокса с бинарным предиктором...............................................................

203

18.7.

Регрессия Кокса с количественным предиктором ................................................

203

18.8.

Взаимодействие предикторов в модели Кокса .......................................................

204

18.9.

Проверка предположений модели регрессии Кокса ............................................

204

18.10.

Оценка значимости и согласованности модели

 

пропорциональных рисков Кокса ...................................................................................................

206

18.11.

Замечания по использованию регрессии Кокса......................................................

207

 

 

4

18.12. Основные типы выживаемости при исследовании онкологических

 

заболеваний................................................................................................................................................

208

Основные аспекты........................................................................................................................................

209

19.Выбор предикторов для модели и рекомендации по построению

регрессионных моделей............................................................................................................................

210

20. Использование результатов моделирования для прогноза .....................................

212

Основные аспекты........................................................................................................................................

213

21. ANOVA с повторяющимися измерениями...........................................................................

214

21.1. Контроль ошибки первого рода при множественных сравнениях...............

220

Основные аспекты........................................................................................................................................

221

22. Лабораторные эксперименты...................................................................................................

223

22.1.

Базовые схемы дизайна .......................................................................................................

223

22.2.

Описание данных ....................................................................................................................

224

22.3.

Статистические критерии..................................................................................................

225

22.4.

Расчет размера выборки......................................................................................................

226

Основные аспекты........................................................................................................................................

227

23. Уровень значимости и доверительные интервалы: практический подход .....

228

Основные аспекты........................................................................................................................................

236

Заключение ....................................................................................................................................................

237

Рекомендуемая литература.................................................................................................................

238

Приложение R. Почему R? .....................................................................................................................

243

Приложение R-1...........................................................................................................................................

245

Приложение R-2...........................................................................................................................................

246

Приложение R-3...........................................................................................................................................

248

Приложение R-4...........................................................................................................................................

249

Приложение R-5...........................................................................................................................................

250

Приложение R-6...........................................................................................................................................

251

Приложение R-7...........................................................................................................................................

252

Приложение R-8...........................................................................................................................................

253

Приложение R-9...........................................................................................................................................

254

Приложение R-10........................................................................................................................................

256

Приложение R-11........................................................................................................................................

265

Приложение R-12........................................................................................................................................

268

Приложение R-13........................................................................................................................................

270

Приложение. Уровни доказательности в исследованиях................................................

276

5

Часть 1

Введение

Книг по статистическому анализу данных много, не просто много, а очень много. И, тем не менее, каждый раз с каждым исследователем мы начинали все заново. Почему так можно и так нельзя анализировать, какой критерий лучше выбрать, какие характеристики данных указать в статье, какие выводы допустимы, а какие нет. Данное пособие – не книга по теории статистики. Скорее, она о том, как пройти статистический анализ в исследовании от начала до конца, зачем считать ту или иную статистику, зачем выполнять те или иные действия над данными, что означает та или иная характеристика ваших данных именно в привязке к медикобиологическим исследованиям. Современные компьютерные статистические пакеты очень мощны и разнообразны. Посчитать можно многое. Вопрос – зачем? 95% ваших исследований укладывается в те понятия и характеристики, которые приведены в этой книге. За более сложными моделями данных и расчетами – обратитесь к статистикам-специалистам.

Мы же с вами пройдем схематично весь путь вашего исследования. Некоторые расчеты характеристик ваших данных будут приведены, некоторые достаточно сложны, чтобы приводить их в этом пособии, большинство вам знакомы, и рассчитываются во многих статистических пакетах, которыми вы пользуетесь. Остается вопрос – как интерпретировать полученные расчеты, как выстроить систему доказательств, что означает та или иная характеристика в системе ваших доказательств.

Я надеюсь, что это пособие поможет понять, что и как надо делать, чтобы доказать правомерность ваших выводов на основе данных вашего исследования. Правильное проведенное и снабженное статистическими доказательствами исследование даст цельный взгляд на поднятую в исследовании проблему.

Ремарка: Мы считаем, не для того, чтобы посчитать, мы считаем, для того, чтобы понять.

Впособии все термины, имеющие отношение к статистическому анализу данных приводятся на русском и английском языках. Это может помочь при чтении статей в международных журналах, чтобы понять, как проводился статистический анализ медико-биологических данных. Более того, существует много англоязычных книг, посвященных прикладным аспектам анализа клинических и эпидемиологических данных в доказательной медицине. Правильно понятая терминология позволит вам сосредоточиться на сути медицинской проблемы, системе доказательств, а не на поиске и переводе статистических терминов.

Вразделе 1 кратко изложен системный подход к построению исследования, связанного с доказательной медициной.

Вразделе 2 дана краткая характеристика типовых дизайнов исследований. Раздел 3 знакомит с типами данных в исследовании.

Раздел 4 знакомит с основами проверки статистических гипотез.

Вразделе 5 представлены общие рекомендации по сбору данных в исследовании.

Раздел 6 кратко знакомит с хорошо изученными в статистическом анализе и часто встречающимися в медицинских исследованиях видами распределений случайных величин.

6

Раздел 7 знакомит с основными характеристиками выборочных распределений и их визуализацией.

Раздел 8 объясняет принципы построения доверительных интервалов и их интерпретацию.

В разделе 9 представлены основы анализа парных измерений.

Раздел 10 посвящен мерам ассоциации и взаимосвязи двух переменных исследования.

Вразделе 11 представлен анализ и интерпретация таблиц 2 2.

Вразделе 12 описан анализ двух групп с использованием количественных

данных.

Вразделах 13 и 14 даны подходы к анализу таблиц сопряженности 2 c и

r c .

Вразделе 15 кратко даны основы дисперсионного анализа.

Раздел 16 описывает линейные регрессионные модели, подходы к их построению, анализу и интерпретации в случае количественной зависимой переменной.

Раздел 17 описывает линейные регрессионные модели (логистическая регрессия), подходы к их построению, анализу и интерпретации в случае бинарной зависимой переменной.

В разделе 18 даны основы анализа выживаемости, линейная регрессионная модель пропорциональных рисков Кокса, ее построение, анализ и интерпретация.

Раздел 19 посвящен общим принципам построения регрессионных моделей в исследованиях.

Раздел 20 знакомит с изучением построенных моделей для прогноза.

Вразделе 21 даны основы анализа повторяющихся измерений применительно к медицинским данным.

Вразделе 22 представлены методы, часто используемые в радомизированных контролируемых лабораторных экспериментах.

Раздел 23 содержит заключительные аспекты по интерпретации результатов исследования и краткий взгляд на клиническую важность полученных статистических результатов.

7

1.Общий подход к построению исследования в доказательной медицине

Как и в любой другой науке, исследования в медицине опираются на общую методологию, общий подход. В настоящее время существует несколько основных прикладных типов исследований в медицине. Это когортные исследования, исследования случай-контроль, одномоментные исследования и рандомизированные клинические испытания.

Для любых этих исследований есть несколько стадий:

1.Разработка дизайна исследования.

2.Сбор данных, предварительный обзор данных, оценка факторов и исхода.

3.Анализ данных.

4.Интерпретация результатов анализа.

5.Экстраполяция на популяцию.

На стадии дизайна (первый шаг) исследователю необходимо сформулировать, какой параметр пациента будет исходом, характеризовать результат; как и какие данные о пациенте и факторах воздействия на организм пациента будут собраны; понять и сформулировать гипотезу исследования; определить популяцию, критерии включения и исключения пациентов в исследование; выбрать тип исследования, метод распределения пациентов в группы; определить размер выборки, указать ошибки I и II рода.

Второй шаг – сбор данных, измерение степени выраженности факторов и классификация исходов наблюдений (наступление заболевания, некоторого состояния или результатов лечения). Тут же проводится предварительный анализ, могут быть выявлены выбросы или ошибки в данных.

Анализ данных – третий шаг, оценка параметров распределения эмпирических данных исследования, проверка предположений, лежащих в основе выбранных методов статистического анализа, непосредственно проведение статистического анализа, определение статистической значимости результатов исследования.

Выводы и заключения, касающиеся исследуемой выборки (выборка может состоять из нескольких групп) – это четвертый шаг. На этом шаге выявляются причинно-следственные связи, эффекты воздействий факторов и пр.

Экстраполяция – заключительный шаг исследований. Выводы, сделанные на предыдущем шаге могут распространяться на группы и популяции, которые похожи на исследуемые. Также могут делаться выводы о популяциях, которые отличаются от тех, которые включены в исследования, определятся группы повышенного риска и т.п.

Доказательная медицина – это раздел науки, который собирает факты для доказательств или опровержений некоторых медико-биологических суждений. Только правильное соблюдение всех шагов в исследовании может привести к нужному результату. Неправильный дизайн порождает неправильный сбор информации. Неправильный сбор порождает неправильную обработку и т.д. Важны все шаги. Тогда доказательства выстроятся в четкую линию и будут убедительны.

8

2. Основные типы дизайна исследований

Прежде, чем перейти к рассмотрению особенностей различных дизайнов исследований, рассмотрим базовые понятия эпидемиологии и доказательной медицины, которые позже будут определять дизайн исследования, возможные методы анализа данных, интерпретацию результатов и возможную экстраполяцию.

Исследования в медицине проводятся ради конечной цели либо снижения риска заболевания, либо снижения риска (вероятности) неблагоприятного исхода при заболевании. Также есть исследования, связанные со снижением стоимости лечения, в этом случае речь идет о не увеличении рисков и неблагоприятных исходов при снижении стоимости лечения. Согласно (Флетчер (1998)):

Фактор риска – это особенность организма или внешнее воздействие, приводящее к увеличению риска возникновения заболевания или иному неблагоприятному исходу.

Под исходом понимается состояние пациента (параметра пациента), зафиксированное в процессе исследований. Основные исходы – это смерть, заболевание, дискомфорт, инвалидизация, неудовлетворенность. Исходом также может быть такое событие как выздоровление, когда речь идет о сравнении методов лечения.

Прогностический фактор (предиктор) – идентифицирует группы пациентов с одинаковым заболеванием, но различным прогнозом исхода. Такие факторы могут быть благоприятными и неблагоприятными.

Таким образом, понятие риска включает в себя такое событие как заболевание, в то время как прогностический фактор, как понятие, используется для пациентов с определенным заболеванием (состоянием). Факторы риска и прогностические факторы могут не совпадать, некоторые влияют как на риск заболевания, так и на его прогноз, причем влиять могут по-разному.

Установление связи между фактором и исходом – важнейший аспект медицинских исследований.

При построении дизайна исследований в эпидемиологии единицей наблюдения является, исследуемый (пациент). В зависимости от того, будут ли наблюдения над исследуемыми пассивны, когда испытатель не вмешивается в распределение исследуемых на определенные группы, или принимает участие в их распределении на группы, наблюдения делятся на пассивные (обсервационные) и активные (рандомизированные). Обсервационные наблюдения разделяются на три базовых типа неэкспериментального (обсервационного) исследования: когортное (проспективное) исследование, исследование случай-контроль и одномоментное исследование (Рис. 2–1).

Для всех типов дизайнов основной целью в исследовании является установление связи между предполагаемыми факторами риска (прогностическими факторами) и событиями (заболевание, смерть и т.п.). Вопрос о причинноследственной связи является более сложным, и в таком дизайне как одномоментное исследование он очень спорен, поскольку фиксация определенного состояния и уровня некоторого фактора не позволяет судить о том, явился ли фактор причиной некоторого состояния исследуемого, или состояние вызвало определенный уровень фактора у исследуемых, а восстановление воздействия фактора по памяти исследуемых склонно к ошибкам. После краткого описания основных обсервационных дизайнов исследования в медицине приведена таблица сравнительных характеристик этих исследований (Табл. 2–1).

9

 

 

 

Наблюдения

 

 

 

 

 

 

Пассивные

 

 

Активные

 

 

 

 

 

 

 

 

 

 

 

 

 

Обсервационные наблюдения

Рандомизированные исследования

 

 

 

 

 

 

Исследования случай-

Когортные

 

контроль

исследования

Одномоментные исследования

 

 

 

Проспективные

Исследования базы

когортные

данных

исследования

 

Рис. 2–1. Основные типы дизайна исследований

2.1.Когортное исследование

Вкогортном исследовании (cohort study) когорта – это группа лиц, объединенных общим признаком и наблюдаемых в течение определенного периода времени, чтобы проследить, что с ними произойдет в дальнейшем.

Это исследование также называют продольным (longitudinal) или исследованием возникновения заболеваний (событий). Имеется в виду, что группа сформирована в настоящее время и будет прослежена в будущем для оценки возникновения некоторого исхода. Также исследование когорты может проводиться по архивным документам. В этом случае это историческое когортное исследование

(database study/historical cohort study/nonconcurrent cohort study), однако оно не перестает быть проспективным по сути: выбирается когорта и прослеживается, что произошло с исследуемыми в дальнейшем по архивным документам.

Основной целью когортного исследования является изучение возникновения исхода (состояния, заболевания). Когорта может набираться не в один момент времени, например, изучение развития сопутствующего заболевания при сахарном диабете – когорта может формироваться из тех, кому диагностирован сахарный диабет в течение 2005–2008 гг. и далее вестись наблюдения, что с ними произойдет в дальнейшем (наступит сопутствующее заболевание или нет) например, в течение 10 лет. Календарно точки наблюдения будут разнесены, но относительно когорты исследуемых – время будет одно и то же: год спустя начала основного заболевания, два года и т.д.

Выборки в таких исследованиях носят также название естественных

(Naturalictic sample).

На рисунке 2–2 приведена простейшая схема когортного исследования для такого события (исхода) как заболевание.

10

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение