Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

вероятности исхода. При проверке гипотезы может использоваться тест Кокрейна– Мантеля–Хензеля (Cochran–Mantel–Haenszel – CMH-test).

Пусть имеем L страт (уровней конфаундера). На i -ом уровне мы можем представить данные исхода и исследуемого предиктора как таблицу 2 2.

Таблица 17–5 Таблицы 2 2 на каждом уровне конфаундера

Уровень i

 

 

Исход

 

 

 

 

 

 

1

0

 

1

 

 

 

Ai

Bi

Фактор

0

 

 

Ci

Di

 

Отношение шансов рассчитывается по таблице 2 2как ORi Ai Di .

BiCi

Ожидаемое значение в ячейке А таблицы 2 2 уровня i равно:

E Ai Ai Ci Ai Bi ,

Ni

вариация Var Ai Ai Ci Bi Di2 Ai Bi Ci Di ,

Ni Ni 1

Где Ni Ai Bi Ci Di .

Тест подсчитывает квадрат суммы отклонений ожидаемых и наблюдаемых частот интересующего состояния ( Ai ) по всем стратам, далее сумма

стандартизируется на сумму вариаций:

 

 

L

2

 

 

Ai E Ai

CMH

i 1

 

.

 

 

 

 

L

 

 

 

 

Var Ai

 

 

i 1

 

 

Статистика CMH подчиняется χ 2 распределению с одной степенью свободы.

Если статистика CMH значима, это означает, что общее отношение шансов

отклоняется от 1.

 

 

Также

можно

рассчитать общее отношение шансов. Эта оценка носит

название оценки Мантеля-Хензеля:

 

 

L

 

 

 

 

AiCi

Ni

OR

 

i 1

 

.

L

 

MH

 

 

 

 

 

Bi Di

Ni

i 1

Также можно рассчитать доверительные интервалы через вариацию логарифма отношения шансов ORMH . Вариация носит название Robins-Breslow-

Greenland (RBG) вариации. Формула достаточно объемна, но реализована во всех пакетах, которые рассчитывают оценку Мантеля-Хензеля.

Тест гомогенной ассоциации не дает значения общего отношения шансов, он только констатирует наличие или отсутствие гомогенной ассоциации.

Тест CMH констатирует наличие или отсутствие гомогенности отношений шансов. Оценка Мантеля-Хензеля позволяет уточнить значение общего отношения шансов Тест гомогенной ассоциации не является необходимым при расчете оценки Мантеля-Хензеля.

181

Если же отношения шансов различны на уровнях конфаундера, то можно графически проследить эти изменения в отношениях шансов. Если уровни конфаундера упорядочены, то возможно наличие тренда, который хорошо виден визуально.

Стратифицированный анализ таблиц 2 2, а также и другие виды стратифицированного анализа широко используются в мета-анализе, когда аналогичные исследования ведутся в нескольких медицинских центрах или лабораториях и нужна обработка таких данных. Стратами выступают центры, лаборатории и т.п. Анализ данных от нескольких центров и выводы, сделанные на его основании, повышают точность оценок, выявляют действительно значимые результаты, помогают уточнять методики исследований1.

17.8.Пример анализа взаимодействия с помощью таблиц 2 x 2

Исследовалась дополнительное постоперационное лечение (поддерживающая терапия после операции в течение 1 недели после операции). Часть пациентов получала основное и дополнительное лечение (ОДЛ), часть – только основное (OЛ). Неблагоприятный исход (осложнение после операции в течение 2 месяцев) закодирован как 0, благоприятный (отсутствие осложнений) – 1, поскольку интересует эффект от дополнительной терапии. Исследование проводилось в нескольких центрах2. Пропорции по группам и отношение шансов в каждом центре представлены в нижних строках таблицы.

Тест гомогенности отношения шансов (Breslow-Day) опроверг нулевую гипотезу о равенстве отношений шансов по всем стратам (р=0,043). Это означает, что данные негомогенны, т.е результаты лечения различны в разных центрах.

Рассчитаем общее отношение шансов (оценку Мантеля-Хензеля) ORMH 2,27,

95% ДИ 0,90–3,95. Поскольку интервал содержит 1, пока невозможно сказать о том, что дополнительная послеоперционная терапия снижает риск осложнений в первые два месяца после операции. Возможно, нужны дополнительные исследования.

Таблица 17–6. Данные примера

 

Центр 1

 

Центр 2

 

Центр 3

 

Центр 4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Исход

ОДЛ

всего

ОДЛ

всего

ОДЛ

всего

ОДЛ

всего

 

 

 

 

 

 

 

 

 

 

 

 

 

1

11

43

54

32

35

67

38

15

53

47

22

69

 

 

 

 

 

 

 

 

 

 

 

 

 

0

6

29

35

17

26

43

7

20

27

10

13

23

 

 

 

 

 

 

 

 

 

 

 

 

 

Всего

17

72

89

49

61

110

45

35

80

57

35

92

 

 

 

 

 

 

 

 

 

 

 

 

 

Пропор-

0,65

0,60

 

0,65

0,57

 

0,84

0,43

 

0,82

0,63

 

ция

 

 

 

 

 

 

 

 

 

 

 

 

OR

1,24(0,41–3,72)

1,40(0,64–3,04)

7,24 (2,54–20,64)

2,78(1,06–7,31)

(95%

 

 

 

 

 

 

 

 

 

 

 

 

ДИ)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1О прикладном мета-анализе подробнее см. в книге Dmitrienko et al (2005).

2Слияние данных от разных центров может привести к парадоксу Симпсона (Simpson’s paradox)- тренд в данных отдельных групп может стать противоположным при их слиянии. Подробнее см. Agresti(2002).

182

Для того, чтобы сравнить результаты, полученные выше и результаты логистической регрессионной модели, выполним построение логистической регрессии на этих же данных.

Первый центр выбран как референтная группа. Введены индикаторные переменные I2,I3,I4 . Модельное уравнение имеет вид:

logit π ОДЛ,I2,I3,I4 β0 β1 ОДЛ β2 I2 β3 I3 β4I4

β5 ОДЛ I2 β6 ОДЛ I3 β7 ОДЛ I4.

Протестируем переменные модели(см. Раздел 17.9) на значимость снижения вариации по логарифму отношения правдоподобия (Табл. 17–7).

Таблица 17–7. Тест отношения правдоподобия1

 

LR

df

Р

 

(тест отношения

(степени свободы)

 

 

правдоподобия)

 

 

 

 

 

 

ОДЛ

12,9373

1

0,0003

 

 

 

 

Центр

2,9009

3

0,4072

 

 

 

 

ОДЛ х Центр

7,8696

3

0,0488

 

 

 

 

Как видно, центр не влияет на результаты лечения. Иначе говоря, пропорция исходов без учета варианта лечения в разных центрах статистически не различается. Можно рассчитать из таблицы, что пропорция благоприятных исходов в центрах (безотносительно варианта лечения) составляет 0,60; 0,61; 0,66; 0,75. Доверительные интервалы можно рассчитать самим и убедится в отсутствии различий.

Есть статистически значимая разница в результатах двух методов лечения без учета центра. Пропорция благоприятного исхода по варианту ОДЛ составляет 0,76, по варианту ОЛ – 0,57. Однако, в мета-анализе результаты по нескольким центрам не суммируются, поскольку различно число наблюдений, условия наблюдения и т.п. Поэтому мы использовали модель со взаимодействием переменных.

Как видно, есть неоднородность в результатах различного лечения в зависимости от центра. Оценим параметры регрессии ( Табл. 17–8).

Таблица 17–8. Оценка параметров модели на основе данных примера I

 

 

 

 

 

 

Параметр

 

 

βˆ

SE βˆ

p

Intercept

βˆ

0

0,39390

0,24029

0,1012

 

 

 

 

 

 

 

ОДЛ

βˆ1

0,21223

0,56153

0,7055

 

 

 

 

 

 

 

Центр 2

βˆ2

–0,09665

0,35323

0,7844

 

 

 

 

 

 

 

Центр 3

βˆ3

–0,68159

0,41762

0,1027

 

 

 

 

 

 

 

 

Центр 4

βˆ

4

0,13219

0,42440

0,7554

 

 

 

 

 

 

 

ОДЛ х Центр 2

βˆ5

0,12304

0,68733

0,8579

 

 

 

 

 

 

 

 

1 Обратите внимание, что в таблице первой идет предиктор, который представляет интерес для исследования, а после – конфаундер. Это принятая практика подачи результатов.

183

ОДЛ х Центр 3

βˆ

 

1,76713

0,77534

0,0227

 

6

 

 

 

ОДЛ х Центр 4

βˆ7

0,80924

0,74764

0,2791

 

 

 

 

Как “прочесть” модель и что означают параметры?

β0 – логарифм шансов благоприятного исхода в группе OЛ центра 1

( ln(0,6/(1 0,6));

 

 

 

 

 

exp β

0

 

– пропорция благоприятных исходов в группе OЛ центра 1 (0,6);

 

1 exp β

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp β

0 β2

 

 

 

 

– пропорция благоприятных исходов в группе OЛ центра 2;

 

 

 

 

1 exp β

0

β

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp β

0 β3

 

 

 

 

– пропорция благоприятных исходов в группе OЛ центра 3;

 

 

 

 

1 exp β

0

β

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp β

0 β4

 

 

 

 

– пропорция благоприятных исходов в группе OЛ центра 4;

 

1 exp β

0

β

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

β1 – логарифм отношения шансов группе ОДЛ к группе OЛ центра 1;

 

 

 

 

 

exp β

0 β1

 

 

– пропорция благоприятных исходов в группе OДЛ центра 1;

 

 

 

1 exp β

0

β

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp β

0 β1 β2

β5

 

 

 

 

– пропорция благоприятных исходов в группе OДЛ

 

1 exp β

0

β

1

β

2

β

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

центра 2;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp β

0 β1 β3 β6

 

 

 

 

– пропорция благоприятных исходов в группе OДЛ

 

1 exp β

0

β

1

β

3

β

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

центра 3;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp β

0 β1 β4

β7

 

 

 

 

– пропорция благоприятных исходов в группе OДЛ

 

1 exp β

0

β

1

β

4

β

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

центра 4; Отношение шансов при дополнительном лечении в центре 1 составляет

exp βˆ1 1,24; в центре 2 – exp βˆ1 βˆ5 1,40 ; в центре 3 – exp βˆ1 βˆ6 7,24 ; в центре 4 – exp βˆ1 βˆ7 2,78 . Это соответствует нашим расчетам выше.

Как видно, разница в результатах двух типов лечения в центре 3 значимо отличается от результатов двух типов лечения референтного центра 1.

Теперь мы немного изменим данные (Табл. 17–9), чтобы увидеть как рассчитывается оценка Мантеля-Хензеля при гомогенности отношений шансов в группах. (Добавлено 10 наблюдений с благоприятным исходом в группе ОДЛ центра

1).

184

Таблица 17–9. Измененные данные примера1

 

Центр 1

 

Центр 2

 

Центр 3

 

Центр 4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Исход

ОДЛ

всего

ОДЛ

всего

ОДЛ

всего

ОДЛ

всего

 

 

 

 

 

 

 

 

 

 

 

 

 

1

21

43

54

32

35

67

38

15

53

47

22

69

 

 

 

 

 

 

 

 

 

 

 

 

 

0

6

29

35

17

26

43

7

20

27

10

13

23

 

 

 

 

 

 

 

 

 

 

 

 

 

Всего

27

72

89

49

61

110

45

35

80

57

35

92

 

 

 

 

 

 

 

 

 

 

 

 

 

Пропор-

0,78

0,60

 

0,65

0,57

 

0,84

0,43

 

0,82

0,63

 

ция

 

 

 

 

 

 

 

 

 

 

 

 

OR

2,36(0,85–6,56)

1,40(0,64–3,04)

7,24 (2,54–20,64)

2,78(1,06–7,31)

(95%

 

 

 

 

 

 

 

 

 

 

 

 

ДИ)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тест гомогенности отношения шансов (Breslow-Day) не опроверг нулевую гипотезу о равенстве отношений шансов по всем стратам (р=0,086). Это означает, что данные гомогенны, т.е разница в отношениях шансов результатов лечения в группах ОДЛ и ОЛ в разных центрах неразличима.

Рассчитаем общее отношение шансов (оценку Мантеля-Хензеля) ORMH 2,55,

95% ДИ 1,06–4,47. Интервал не содержит 1, дополнительная послеоперционная терапия снижает риск осложнений в первые два месяца после операции.

Выполним построение логистической регрессии на этих же данных, как делали в предыдущем примере.

Первый центр выбран как референтная группа. Введены индикаторные переменные I2,I3,I4 . Модельное уравнение имеет вид:

logit π ОДЛ,I2,I3,I4 β0 β1 ОДЛ β2 I2 β3 I3 β4I4

β5 ОДЛ I2 β6 ОДЛ I3 β7 ОДЛ I4.

Протестируем переменные модели на значимость снижения вариации по логарифму отношения правдоподобия (Табл. 17–10).

Таблица 17–10. Тест отношения правдоподобия

 

LR

Df

Р

 

(тест отношения

(степени свободы)

 

 

правдоподобия)

 

 

 

 

 

 

ОДЛ

17,1872

1

<0,0001

 

 

 

 

Центр

3,0820

3

0,3792

 

 

 

 

ОДЛ х Центр

6,4196

3

0,0929

 

 

 

 

Как видим, взаимодействие незначимо ( p 0,0929), т.е. данные различных центров имеют гомогенную ассоциацию.

1 Обратите внимание, что отношение шансов для центра 1 и центра 2 было незначимым как при исходных, так и при измененных данных, а критерий гомогенности показал различные результаты. Критерий гомогенности не сравнивает отношения шансов между собой. Он улавливает более тонкие изменения, связанные с гомогенностью таблиц.

185

Рассчитаем модель без взаимодействия, учитывая вариацию, которую вносят центры.

Таблица 17–11. Оценка параметров модели на основе измененных данных примера

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Параметр

 

 

 

βˆ

 

SE βˆ

 

p

 

 

 

 

Intercept

 

 

βˆ

0

0,3726

 

0,2192

 

0,089

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ОДЛ

 

 

βˆ1

0,9614

 

0,2359

 

<0,001

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Центр 2

 

 

βˆ2

-0,3304

 

0,2963

 

0,262

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Центр 3

 

 

βˆ3

-0,2031

 

0,3299

 

0,539

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Центр 4

 

 

βˆ

4

0,1839

 

0,3336

 

0,539

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp βˆ

 

Общее отношение шансов при сравнении двух вариантов лечения составит

1

exp 0,9614

2,62

(1,65–4,19). Напомним,

что OR

2,55 (95% ДИ 1,06–

 

 

 

 

 

 

 

 

 

MH

 

 

 

4,47).

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценка Мантеля-Хензеля разработана авторами задолго до того, как логистическая регрессия стала популярной, однако расчеты этой оценки мало отличаются от результатов логистической регрессии.

В Приложении R-11 содержатся R-скрипты для расчетов, приведенных в данном разделе как для расчета оценки Мантеля-Хензеля, так и подгонки логистической регрессии.

17.9. Проверка предположений модели логистической регрессии

17.9.1. Тестирование гипотез логистической регрессии

При оценке значимости линейной модели нас интересовало MSS TSS RSS .

Общая вариация TSS состояла из двух частей: вариация относительно линии регресии RSS (остаточная сумма квадратов) и вариация предсказанных на основании модели значений исхода относительного среднего значения исхода

 

 

 

 

N

 

 

 

 

 

(сумма

квадратов

модели).

RSS yi yˆi

2 .

Если

модель не

содержала

 

 

 

 

i 1

 

 

 

 

 

независимых переменных, а только параметр β0

, то βˆ0 y , т.е. среднее значение

исхода.

RSS

в

этом

случае

была

равна

общей

вариации,

N

 

N

 

N

 

 

 

 

 

RSS yi yˆi 2

yi βˆ0 2 yi y 2

TSS .

Изменения в общей

вариации

i 1

 

i 1

 

i 1

 

 

 

 

 

снижались при использовании модельного уравнения, содержащего независимые переменные. Большое снижение означало значимое влияние независимой переменной.

Для логистической регрессии поступают аналогично – сравнивают значения наблюдаемых и ожидаемых исходов при наличии и отсутствии изучаемого предиктора в модели.

Оценки параметров в логистической регрессии осуществляют на основании метода максимума функции правдоподобия, т.е. находят такие оценки параметров, которые дают максимальное правдоподобие на имеющихся данных.

186

Совместная вероятность данных (правдоподобие (likelihood)) равна:

 

 

 

 

 

 

N

 

 

 

N

 

 

 

 

 

yi

 

N

 

yi

 

 

1 yi

 

N yi

 

L p

 

 

p

i 1

,

 

1 p

 

1 p

i 1

i 1

 

 

 

 

 

 

 

 

 

где p

 

истинная

вероятность наступления события; N – количество

наблюдений;

yi

– принимает значение 1 – событие наступило или 0 – событие не

наступило.

 

 

 

 

 

 

 

 

 

На практике используют логарифм правдоподобия:

 

 

 

N

 

 

N

 

 

l lnL lnp yi ln 1 p N yi .

 

 

 

 

i 1

 

 

i 1

 

 

Оценка πˆ максимального правдоподобия (MLE, maximum likelihood estimation)

параметра p

проводится таким образом,

чтобы логарифм правдоподобия l был

 

 

 

1

N

 

 

 

 

 

максимален: πˆ

yi .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N i 1

 

 

 

 

 

С учетом оценок параметров рассчитывают статистику

N

D 2 yi ln πˆ xi 1 yi ln 1 πˆ xi .

i 1

Статистика D называется во многих источниках девиацией (deviance) и играет ту же роль для логистической регрессии, что и RSS для линейной регрессии.

Девиация связана с функцией правдоподобия как D 2ln L .

Тест отношения правдоподобия (likelihood ratio test, LR test) сравнивает отношение правдоподобия двух моделей. Оценка отношения правдоподобия трансформируется в оценку разности двух девиаций.

Пусть для одной модели (на одних и тех же данных) рассчитана девиация D1 , для второй модели D2 .

Обозначим:

L1 ln L модельбез переменной , L2 ln L модельс переменной . Известно, что G 2 L1 L2 .

Статистика теста G 2ln L1 L2 D1 D2 подчиняется χ 2 распределению со

степенями свободы, равным разности в количестве переменных в моделях (с учетом представления мультиноминальной переменной набором индикаторных переменных).

Расчет логарифма правдоподобия и тест отношения правдоподобия – стандартные расчеты для всех пакетов, которые могут работать с логистической регрессией. В некоторых пакетах рассчитывается девиация D , в других – логарифм отношения правдоподобия L . Тест рассчитывается одинаково.

Ремарка: Правдоподобие моделей, построенных на разных наборах данных, не сравнивается.

Кроме теста отношения правдоподобия используются тест Вальда, оценочный тест (Score test). Геометрическая интерпретация этих тестов приведена на рис. 17–1. Функция логарифма правдоподобия вогнута (перевернутая чаша) для моделей биноминальной логистической регрессии и некоторых других. Метод

максимального правдоподобия для β находит точку βˆ , где функция логарифма правдоподобия максимальна. Тест отношения правдоподобия сравнивает значения

187

логарифмов L L βˆ и

L L 0 . Тест

Вальда оценивает поведение функции

1

0

 

 

 

 

логарифма правдоподобия около точки βˆ

 

βˆ 2

 

в форме

 

 

. Чем больше кривизна, тем

 

 

 

 

SE

 

 

 

 

 

 

 

меньше стандартная ошибка, соответственно значение статистики Вальда больше. Оценочный тест проводит касательную к кривой в точке β 0. Чем больше наклон

касательной, тем дальше βˆ отстоит от нуля. Все три теста используют χ 2 распределение для оценки значимости отклонений. Для малых выборок тест отношения правдоподобия более надежен.

Этими тестами можно проверять различные гипотезы, как о значимости отдельного предиктора, так и нескольких или всех предикторов, входящих в модель.

L β

L1

L0

0

βˆ

Рис. 17–1. Геометрическая интерпретация различных тестов

Кроме вышеназванных тестов для сравнения моделей используется информационный критерий Акаике ( AIC критерий), который штрафует за использование излишнего количества параметров модели.

AIC рассчитывается как AIC 2lnL 2 p, где p – количество параметров модели. Часто применяется для выбора оптимального числа параметров в моделях.

17.9.2. Диагностика логистической регрессии

Бинарная природа переменной исхода в логистической регрессии отличается от количественного исхода линейной регрессии. Распределение остатков модели также отличается от линейной регрессии.

Техника диагностики влияющих значений похожа в определении и интерпретации на аналогичные диагностики в линейной регрессии.

В линейной регрессии используются стандартизированные остатки для проверки предположения о линейности в отношении количественного предиктора. Аналогично, в логистической регрессии используются остатки, стандартизированные по Пирсону (standardized Pearson residuals). Однако некоторые графики, основанные на наблюдаемых значениях исхода, сложнее для восприятия, поскольку исход равен или 0 или 1.

Визуализация зависит от того, используются ли количественные или бинарные переменные в модели. Часто используются графики, в которых по оси х откладывается номер наблюдения, а по y – остатки какого-либо типа.

188

Аналогично, можно рассчитать удаленные остатки (deleted residual), девиацию каждого наблюдения и др. Также доступна статистика DFBETAs по каждому предиктору.

Существуют несколько тестов, которые определяют согласие (goodness of fit) построенной модели с имеющимися данными: тест le Cessie-van Houwelingen-Copas- Hosmer, Hosmer-Lemeshow тест и др. Поскольку это критерии согласия, то нулевая гипотеза о том, что данные согласуются с моделью остается верной, если уровень p α .

Различные пакеты предоставляют различный набор диагностических средств: графиков и тестов. Поэтому необходимо ознакомится с руководством по конкретному пакету для выполнения соответствующих действий.

17.9.3. Предположения о линейности количественных переменных в логистической регрессии

Вопрос линейности для количественных переменных решается несколькими способами. Один достаточно простой способ приведен ниже.

Количественная переменная разбивается на несколько интервалов – групп. Обычно используют квартили (т.е. разбиение упорядоченного выборочного набора на 4 равные части), или разбиение происходит в соответствии с медикобиологической интерпретацией количественной переменной. В зависимости от количества наблюдений интервалов может быть и больше. Новая переменная – упорядоченная мультиноминальная переменная, представленная несколькими индикаторными переменными. Строится вспомогательная логистическая регрессия на основе на основе индикаторных переменных. Строится график, по оси x откладываются середины интервалов разбиения (медианы или среднее значение интервала), по оси y – значения коэффициентов логистической регрессии соответствующей категории. Для референтной категории коэффициент равен 0. Через точки проводится линия. По графику определяется вид кривой. Если она нелинейна, определяется или ее трансформация, или решение о разбиении количественной переменной на интервалы или некоторое другое решение.

17.9.4. Пример анализа линейности количественной переменной

Гистограмма возраста пациентов в некотором исследовании эффективности лечения исследовании приведена на рис. 17–2.

Рис. 17–2. Пример распределения возраста в выборке исследования

Количественная переменная возраст была разбита на 4 интервала согласно квартилям 0–25, 26–50, 51–75, 76–100. Соответственно возраст : 25–52, 53–62, 63–68, 69–75.

189

Для того, чтобы не давать объемные исходные данные, ниже в табл.17-12 приведены результаты разбиения на 4 группы.

Таблица 17–12. Данные примера

Исход

 

Возраст

Возраст

Возраст

Возраст

 

 

25–52

53–62

63–68

69–75

 

 

 

 

 

 

0

 

23

27

43

35

 

 

 

 

 

 

1

 

69

53

67

54

 

 

 

 

 

 

Средний возраст

 

45,40

58,19

65,58

71,76

 

 

 

 

 

 

Коэффициенты

во

 

 

 

 

вспомогательной

 

0

0,090

0,135

0,123

модели

 

 

 

 

 

 

 

 

 

 

 

Рассчитан средний возраст в каждой категории. После чего была построена модель с 4 категориями, одна из которых (более младший возраст) был принят за референтную категорию. Получены 3 коэффициента регрессии. Для младшей категории коэффициент равен 0 (Таблица 17–12). Построен график (рис. 17–3). Фактически такую проверку можно осуществить и без использования вспомогательной логистической регрессии. В каждой возрастной категории может быть рассчитана пропорция бинарных исходов. Рассчитав пропорции, и логарифмы отношения шансов в каждой категории относительно референтной, можно построить график.

График покажет изменения логарифма отношения шансов относительно референтной категории (как с использованием, так и без использования вспомогательной логистической регрессии).

0,160

0,140

0,120

0,1000,080 0,060 0,040 0,020 0,000

20

30

40

50

60

70

80

 

 

 

Возраст

 

 

 

Рис. 17–3. График зависимости параметра от возраста

Как видно, последняя категория опровергает предположение о линейности. В данном случае, мы приняли решение о том, что трансформация переменной возраст нецелесообразна, необходимо объединить 3 и 4 категории и представлять возраст тремя упорядоченными категориями в логистической регрессии (см. рис 17–4). Если бы изгиб был в середине графика , решение бы было иным.

190

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение