Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

Комментарий к шагу 5.

Тем не менее, в модели существуют выбросы, наиболее значимые – это наблюдение 39 и наблюдение 84 (см. рис. 16-18).

Рис. 16-18. Диаграмма влияния наблюдений на оценки параметров модели LM.interaction.

Если удалить эти 2 выброса из данных, и повторить шаги, то уменьшится стандартная ошибка оценки параметров. Основные эффекты не изменятся. Это можно сделать самостоятельно.

Наблюдение 84 как, и в предыдущей модели, являлось выбросом. Следует рекомендовать исследователю перепроверить данные этого ребенка, возможно, его не следовало включать в контрольную группу по медицинским или другим показаниям. Например, этот ребенок может активно заниматься специфическим видом спорта, или принимать специфическое лечение, не связанное с данным исследованием и т.п.

Шаг 6.

Значимость изменения уровня остеокальцина для каждой возрастной подгруппы, ассоциированную с наличием химиотерапевтического воздействия, можно выяснить с помощью линейных гипотез для модели LM.fit. Значимость изменений составила соответственно для подгруппы до 10 лет р=0,046; в 10-14 лет p<0,0001; для подгруппы 15-18 лет p= 0,273; для подгруппы 18+ p= 0,690.

Для того, чтобы получить оценки средних остеокальцина в возрастных подгруппах, мы сначала рассчитаем по модели средние и доверительные интервалы для преобразованной переменной, потом выполним обратное преобразование. Результат представлен в Таблице 16-18. График эффектов представлен на рис. 16-19.

171

Таблица 16-18.

Значение остеокальцина

с учетом пола,

возрастной группы и наличия

химиотерапии

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Остеокальцин

 

 

 

 

 

 

 

 

 

 

 

95% Доверительные

 

 

Возраст

 

 

Пол

Группа

 

Среднее

 

интервалы

 

 

 

до 10

7,3

male

ХТ

 

75,02

 

61,98

 

89,32

 

 

до 10

male

контроль

 

93,51

 

80,53

 

107,45

 

 

 

 

 

 

 

 

 

до 10

7,5

female

ХТ

 

63,30

 

50,94

 

76,99

 

 

до 10

female

контроль

 

80,36

 

67,95

 

93,80

 

 

 

 

 

 

 

 

 

10-14

12,8

male

ХТ

 

72,76

 

60,23

 

86,47

 

 

10-14

male

контроль

 

113,78

 

98,34

 

130,34

 

 

 

 

 

 

 

 

 

10-14

12,5

female

ХТ

 

61,22

 

48,55

 

75,34

 

 

10-14

female

контроль

 

99,22

 

84,84

 

114,72

 

 

 

 

 

 

 

 

 

15-18

16,4

male

ХТ

 

54,04

 

43,34

 

65,92

 

 

15-18

male

контроль

 

63,14

 

50,86

 

76,74

 

 

 

 

 

 

 

 

 

15-18

16,3

female

ХТ

 

44,16

 

34,38

 

55,17

 

 

15-18

female

контроль

 

52,42

 

40,70

 

65,62

 

 

 

 

 

 

 

 

 

18+

22,4

male

ХТ

 

30,90

 

22,86

 

40,15

 

 

18+

male

контроль

 

28,67

 

21,66

 

36,66

 

 

 

 

 

 

 

 

 

18+

20,1

female

ХТ

 

23,55

 

16,14

 

32,37

 

 

18+

female

контроль

 

21,61

 

15,09

 

29,31

 

 

 

 

 

 

 

 

Рис. 16-19. Графики эффектов модели LM.fit для Ost.sqrt

Клиническая ценность

1.У нас есть убедительные доказательства, что высокодозное и низкодозное химиотерапевтическое воздействие одинаково влияют на уровень остеокальцина у пациентов исследуемой группы.

2.Определен эффект, связанный с применением химиотерапии. Это воздействие ассоциировано со снижением остеокальцина в возрасте до 15 лет, т.е. в период активного костеобразования. После 15 лет этот эффект исчезает.

3.Также определен эффект связанный с полом. Он имеет место во всех возрастных группах.

4.Можно определить средние и доверительные интервалы для контрольной

иисследуемой группы в различных возрастных подгруппах (Таблица 16-18).

172

Основные аспекты

Понятие линейности в регрессии.

Понятие предиктора и зависимой переменной в регрессии. Понятие параметра регрессии.

Количество переменных модели может отличаться от количества исследуемых предикторов, поскольку один предиктор может порождать несколько индикаторных переменных, комбинация нескольких предикторов может порождать одну переменную;

Интерпретация параметров регрессии – важный момент в исследовании. На основании параметров расчитываются различные эффекты.

Понятие конфаундера и его учет в модели.

Значимость модели и значимость параметров модели – разные понятия.

Силу влияния различных переменных на зависимую переменную можно определять в пределах одной модели.

Сравнение моделей возможно только на одних и тех же исходных данных.

Построенная модель не всегда верна, если нарушаются предположения, лежащие в основе модели.

Выбросы и ошибочные данные влияют на подгонку модели.

Регрессионная модель интерпретируема в пределах изменения наблюдаемых данных.

Интерпретация не включает в себя момент причинно-следственной связи, только констатацию наличия ассоциации между зависимой переменной и предиктором.

173

17.Логистическая регрессия

Сточки зрения компонентов модели логистическая регрессия описывается следующим образом:

Систематический компонент – это один предиктор или линейная комбинация нескольких предикторов; случайный компонент – исход1, который имеет биноминальное распределение; функция связи – логистическая функция (logit)2.

Переменная исхода y может принимать два значения: 0 и 1.

Вероятность того, что y 1 при определенных значениях x обозначим как π(x). Оценка π(x) – это пропорция наблюдений в выборке: отношение количества наблюдений, для которых исход y 1 ко всем наблюдениям в выборке.

 

В модели логистической регрессии предполагается, что

 

 

 

yi подчиняется биноминальному закону распределения;

 

 

 

среднее

 

 

E y | x π x

 

 

 

представляется

уравнением

E y | x π x

exp β0 β1x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

1 exp β

0

β

1

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Значения переменной исхода статистически независимы.

 

 

 

Уравнение

π x

 

 

exp β0 β1x

можно

преобразовать

как

π x

 

1 exp β

0

β

1

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

π x

 

 

 

 

 

exp β0 β1x .

 

Левая часть уравнения

является математической

 

 

 

 

 

 

1 π x

 

1 π x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

записью шанса исхода в исследуемой выборке (отношение вероятности того, что

событие произойдет, к

вероятности того,

что

 

событие не произойдет).

 

 

 

 

π x

 

 

 

 

 

 

 

Прологарифмируем обе

части:

log

 

 

 

β

0

β

1

x . Полученное уравнение

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

π x

 

 

 

 

 

 

напоминает уравнение линейной регрессии, но слева находится не количественная

переменная, а некоторое преобразование бинарной переменной исхода. Выражение

 

 

π x

 

логарифма шанса исхода

log

 

 

называют логит-преобразованием

 

 

 

 

 

 

вероятности исхода logitπ x

 

1 π x

 

, а модель – логит-моделью.

Использование логит-преобразования – это первое важное отличие логистической регрессии от линейной. Второе важное отличие логистических регрессионных моделей касается условного распределения переменной исхода3. В линейной регрессии предполагалось, что переменная исхода yi E y | xi εi , εi

называлось ошибкой и отражало отклонение наблюдения от условного среднего. Самое общее предположение касалось εi – ошибка следует нормальному

1 Исход – это зависимая переменная y . Термин “исход” (outcome) – используется в эпидемиологии, когда

зависимая переменная представляет собой некоторое событие/состояние, вероятность наступления которого нужно оценить.

2Другие преобразования (функции связи), равно как и логит-преобразование относятся к классу обобщенных линейных моделей (generalized linear model). Правая часть уравнения остается линейной комбинацией предикторов.

3Закон распределения случайной величины y в обобщенных линейных моделях может быть различным.

174

распределению с нулевым средним и дисперсией, постоянной на любом уровне xi .

Т.е. условное распределение переменной исхода при заданном xi

будет нормальным

со средним E y | xi с постоянной дисперсией. При бинарном исходе это не так.

Значение переменной исхода может быть записано как

yi π xi

εi . В этом случае,

если yi 1, то

εi 1 π xi с вероятностью π xi ,

при

yi 0 ,

ошибка εi π xi с

вероятностью

1 π xi . Условное распределение

переменной исхода следует

биноминальному распределению с вероятностью, определенной условным средним

π xi .

В линейной регрессии коэффициенты оценивались на основе метода наименьших квадратов. Находились такие оценки параметров, которые бы минимизировали сумму квадратов отклонений наблюдаемых значений y и

ожидаемых (предсказанных по модельному уравнению). Для логистической регрессии используется метод максимального правдоподобия, который является более общим и включает в себя метод наименьших квадратов. Не вдаваясь в математические подробности можно сказать, что метод максимального правдоподобия (maximum likelihood estimator) находит значения неизвестных параметров, которые максимизируют вероятность получения наблюдаемого набора данных.

Интерпретация параметров модели будет рассмотрена ниже.

17.1.Логистическая регрессия с бинарным предиктором

 

Пусть предиктором является биноминальная переменная x

со значениями 0

и 1.

 

 

logit π 1 logit π 0 β0 β1 1 β0 β1 0 β1 . С

 

 

Тогда

другой стороны,

 

π 1

 

π 0

 

π 1 1 π 1

 

 

log

 

 

log

 

 

log

 

 

. Выражение под логарифмом – это

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 π 1

 

1 π 0

 

π 0 1 π 0

 

 

отношение шансов в двух группах (см. раздел 11). Таким образом, параметр β1

может интерпретироваться как логарифм отношения шансов. Отношение шансов рассчитывается в двух группах: при x 1 и при x 0 . Это значит, что для бинарной переменной логистическая регрессия полностью эквивалентна расчету отношения шансов в таблицах 2 х 2.

Отношение шансов OR

π 1 1 π 1

exp β .

 

 

 

π 0 1 π 0

1

 

 

 

 

 

 

 

Для проверки значимости параметра β1

 

тестируется

нулевая гипотеза,

которая гласит, что H0 : β1 0, т.е. отношение

шансов равно

exp β1 1, иначе

говоря, что предиктор не влияет на изменение шансов. Отношение шансов интерпретируется как размер эффекта, во сколько раз изменится в среднем величина y при изменении x на 1.

Для тестирования значимости переменных в логистической регрессии обычно используется тест логарифма правдоподобия, он также используется для проверки значимости модели в целом. Также может быть использован тест Вальда и др.

175

17.2. Логистическая регрессия с мультиноминальным предиктором

Для мультиноминальной шкалы используется тот же подход, как и в разделе 16.3. Одна из категорий принимается за референтную и отношения шансов остальных категорий определяются относительно нее. Иногда количественную переменную разбивают на несколько уровней, и исследуют, как возрастает отношение шансов от уровня к уровню. Однако, надо иметь ввиду, что количество наблюдений в группах должно быть сбалансировано (приблизительно одинаковым). На малые группы по количеству наблюдений разбивать не рекомендуется.

Выбор референтной категории также является тонким моментом, требуется, чтобы количество наблюдений в этой категории не было малым. Если мультиноминальная переменная упорядочена, можно исследовать тренд в отношениях шансов.

17.3.Пример построения логистической регрессии

Рассмотрим пример из раздела 14. Мы анализировали его для выявления зависимости наличия метастазов от локализации опухоли.

Данные из Tабл. 14–7 можно проанализировать с использованием логистической регрессии.

Представим предиктор "локализация" как набор индикаторных переменных

(Табл. 17–1).

Таблица 17–1. Представление категориальной переменной исследования индикторными переменными

 

Локализация

 

 

I2

I3

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

0

0

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

1

0

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

0

1

 

 

 

 

 

 

 

 

Запишем модель:

 

 

 

 

 

 

 

π x

 

 

 

 

 

 

 

log

 

 

β

0

β

I2

β

I3 .

 

 

 

 

 

 

 

 

2

 

 

3

 

 

 

1 π x

 

 

 

 

 

 

 

Тест логарифма правдоподобия (оценка значимости предиктора “локализация”) показал значимость предиктора (статистика отношения логарифмов правдоподобия = 9,5397 , степени свободы = 2, p 0,008482. Вывод – предиктор

является значимым в модели.

Оценки параметров в модели представлены в табл.17–2.

Таблица 17–2. Оценки параметров модели

 

Estimate

Std. Error

p

 

 

 

 

Intercept

1,3499

0,2999

6,76e–06

 

 

 

 

I2

–0,8034

0,3712

0,0304*

 

 

 

 

I3

1,2891

1,0777

0,2316

 

 

 

 

У нас есть ранее рассчитанные пропорции (см. табл 14–7).

Сравним их с полученными значениями, результаты сведены в табл.17–3:

Таблица 17–3. Сравнение результатов модели и расчетов таблиц сопряженности

176

 

 

 

 

 

 

 

 

 

Локали-

Пропор-

Уравнение

 

π x

 

E y| x π x

зация

ция из

 

 

 

 

 

 

exp

 

 

 

 

 

 

 

 

1 π x

 

 

exp

 

 

таблицы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp

 

14–6

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

0,794

 

π x

 

 

exp β0

 

0,794

 

 

 

log

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp 1,3499

 

 

 

 

 

 

 

1 π x

 

 

 

 

 

 

β0

 

 

 

3,857

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

II

0,633

 

π x

 

 

exp β0 β2

 

0,633

 

 

 

log

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp(0,5465)

 

 

 

 

 

 

 

 

1 π x

 

 

 

 

 

 

β0

β2

 

 

1,727

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

III

0,933

 

π x

 

 

exp β0 β3

 

0,933

 

 

 

log

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

exp(2,639)

 

 

 

 

 

 

 

 

1 π x

 

 

 

 

 

 

 

β0

β3

 

 

14,000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Как видно, второй и последний столбцы в таблице 17–3 совпадают, значения пропорций, рассчитанные непосредственно по данным, и полученные в результате расчетов по модели не различаются.

Исходя из результатов подгонки модели, для индикаторной переменной I2, которая представляет в нашей модели локализацию второго типа, коэффициент регрессии значим, т.е. локализация второго типа отличается от локализации первого типа. Локализация третьего типа незначимо отличается от локализации первого типа. Может быть проверена линейная гипотеза о различии коэффициентов β2 и β3 , которая покажет отличия локализации II типа от локализации III типа.

Как и при анализе таблицы в разделе 14, мы можем и в модели объединить локализации. Если нас интересует локализация II типа, закодируем ее 1, а остальные типы – 0. Если же нас интересует локализации не-II типа, то их закодируем 1, а локализацию II типа – 0.

После объединения локализаций первого и третьего типа, для новой модели получены следующие результаты (Табл. 17–4):

Таблица 17–4. Оценка параметров модели после объединения категорий

 

Estimate

Std. Error

р

 

 

βˆ

 

SE

 

 

Intercept

0,5465

 

0,2187

0,0125

 

 

 

 

 

 

 

Локализации не-II типа

0,9649

 

0,3595

0,0073

 

 

 

 

 

 

 

Отношение шансов OR exp βˆ

exp 0,9649 2,625. Полученное значение

 

1

 

 

 

 

совпадает с отношением шансов, рассчитанным в примере раздела 14.

Расчет доверительных интервалов для отношения шансов по логистической регрессии производится следующим образом:

Сначала строится доверительный интервал для оценки параметра:

βˆL βˆ1 zγ SE и βˆH βˆ1 zγ SE ,

177

π x

где zγ – значение γ -квантиля нормального распределения, γ 1 α 2 для двустороннего интервала, т.е. для α 0,05 γ 0,975.

Затем вычисляется доверительный интервал для отношения шансов:

ORL expβˆL и ORH exp βˆH .

ORL exp 0,9649 1,96 0,3595 1,30; ORH exp 0,9649 1,96 0,3595 5,31.

Как видно из данного примера, статистические выводы идентичны примеру раздела 14. Локализации, отличные от типа II, ассоциируются с повышенным уровнем метастазирования, т.е. более неблагоприятны.

17.4. Логистическая регрессия с количественным предиктором

Для количественной переменной – изменение предиктора на единицу шкалы

измерения составит logitπ x 1 logitπ x β0 β1 x 1

β0 β1 x β1 .

Тогда

OR

π x 1 1 π x 1

 

exp β ,

т.е. отношение шансов при

π x 1 π x

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

возрастании предиктора на единицу шкалы.

 

 

 

 

 

Отсюда следует, что OR

π x

1 π x

 

exp β

 

, т.е. если увеличение

π x 1 π x

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

предиктора произошло на единиц, то логарифм отношения шансов изменился в раз.

Для проверки значимости параметра β1 тестируется нулевая гипотеза, которая гласит, что H0 : β1 0, т.е. отношение шансов равно 1, иначе говоря, что предиктор не влияет на изменение шансов.

Отношение шансов на каждую единицу изменения количественной переменной не всегда понятно интерпретируется. Поэтому чаще используют следующий подход: рассчитывают отношение шансов между 25 и 75 перцентилями (квартилями) выборки (Q25 и Q75). Это означает, что если выборку разбить по

медиане Q50 значений количественного предиктора на две группы (значения

количественного предиктора ниже медианы и выше), то отношение шансов у этих групп будет равноOR exp β1 Q75 Q25 .

17.5.Интерпретация параметра β0 в логистической регрессии

Интерпретация параметра β0 зависит от типа дизайна.

Логистическая регрессия может использоваться для различных типов дизайнов исследования.

В отсутствии предикторов шанс исхода 1 π x exp β0 .

В когортных исследованиях β0 отражает реальное соотношение случаев в

когорте. Заметим, что в когортных исследованиях логистическая регрессия применяется редко. Для применения логистической регрессии в когортных исследованиях необходимо проведение так называемых закрытых когортных исследований, когда все наблюдения имеют одинаковую длительность. Когда время наблюдения различно, используется регресионная модель Кокса.

178

Для исследований "случай-контроль" мы имеем две искусственно созданные группы. Если используется количественный предиктор, β0 является параметром,

который "центрирует" модель относительно среднего значения предиктора1. При бинарном и мультиноминальном предикторе β0 соответствует логарифму

отношения шансов в референтной группе.

В дизайне "matched pairs", когда ровно на один случай приходится ровно один контроль это соотношение равно 1. β0 в этом случае не включается в модель.

Переменная, которая представляет интерес в исследовании в дизайне "случайконтроль" ни в коем случае не должна влиять на выбор пациентов, включенных в исследование "случай-контроль" (см. раздел 2), иначе мы получим систематическую ошибку при оценке этой переменной.

Для дизайна "matched pairs" используется специальный подход к оценке правдоподобия, называемый условное правдоподобие (conditional likelihood), основанный на условной вероятности. Сложность компьютерных расчетов заключается в том, что различные статистические пакеты предоставляют различный интерфейс для моделирования логистической регрессии и расчета условного правдоподобия в условиях дизайна "matched pairs". Необходимо получить консультации специалиста именно по выбранному статистическому пакету, в котором вы проводите подгонку логистической регрессии при дизайне "matched pairs". Интерпретация результатов, однако, не отличается от вышеприведенной за исключением того, что β0 исключается из модели. Дизайн "matched pairs"

достаточно своеобразен и к нему никогда не следует относиться легкомысленно. Эффективный подбор пар (в случаях, когда переменные, по которым проводится подбор – вмешивающиеся переменные с сильным влиянием), может дать более точные оценки связи события (заболевания/состояния) и воздействия (экспозиции фактора). Однако, когда переменные, по которым подбирались пары, на самом деле не обладают одновременным воздействием на изучаемую переменную и исход, то может наблюдаться снижение точности в сравнении с непарным дизайном исследования. Более того, в дизайне "matched pairs" соответствие критериям "парности" (одинаковый возраст, одинаковая раса, одинаковое предыдущее лечение и пр.) может осложнять подбор и вести к потере информативных данных.

17.6.Взаимодействие предикторов в логистической регрессии

Аналогично, как и в линейной регрессии, можно построить модель для исследования конфаундеров (контроля влияния вмешивающихся переменных).

logit π x1 ,x2 β0 β1x1 β2x2 β3x1x2 .

Пусть переменная x1 x

– влияющая ковариата (конфаундер, например,

возраст), x2 F – изучаемый

фактор с уровнями f0 0 и

f1 1 (например,

традиционное и новое лечение). Задача – исследовать отношение шансов уровней изучаемого фактора f0 и f1 с учетом модификатора эффекта x .

1 Центрирование означает следущее: если мы вычислим среднее предиктора x в наборе данных, на

котором осуществляется подгонка модели, и подставим это значение в полученную модельную формулу

 

 

 

 

 

exp βˆ

0

βˆ

1

x

 

 

E y|x π x

 

 

 

 

 

 

 

 

 

, то значение

y будет равно в точности отношению количества

1 exp βˆ

0

βˆ

1

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

наблюдений, для которых исход

 

y 1 к общему числу наблюдений в наборе, т.е. пропорции в выборке.

179

logit π 1,x logit π 0,x

β0 β1 1 β2x β3x 1 β0 β1 0 β2x β3x 0 β1 β3x;

Т.е ln OR β1 β3x; а OR exp β1 β3x , отношение шансов исхода при наличии и отсутствии изучаемого фактора – функция от ковариаты (конфаундера).

Гипотеза H0 :β3 0 констатирует, что отношение шансов уровней фактора F

не зависит от конфаундера. Проверяя ее, мы либо доказываем, что эффект от модификатора (конфаундера) существует и значим, либо не значим.

Ремарка: Напомним, что нулевая гипотеза не доказывается, она остается верной, пока не получены новые доказательства.

Предположение о рандомизации ковариаты (модификатор эффекта) не

меняется для логистической регрессии.

 

Если эффект влияния существует, можно рассчитать OR exp β1

β3x при

различных x x1 ,x x2 , . Очень часто таким модификатором в

клинико-

эпидемиологических исследованиях выступает возраст. Можно рассчитать отношение шансов исследуемого фактора для разных возрастов с шагом 10 или 5. Мы можем проверить, существует ли тренд в отношениях шансов для нескольких возрастных групп, которые упорядочены.

17.7.Стратифицированный анализ серии таблиц 2 х 2

В случае, когда у нас есть исход и предиктор, и нам важно установить влияние конфаундера, может использоваться стратифицированный анализ серии таблиц 2 2 вместо использования логистической регрессии. Конфаундером может выступать биноминальная, мультиноминальная переменная. Допускается дискретизация (интервальное разбиение) количественной переменной.

Стратифицированный анализ серии таблиц 2 2 должен дать ответ на вопрос: изменяется ли отношение шансов на различных уровнях конфаундера. Если конфаудер не изменяет отношение шансов, то можно рассчитать общее отношение шансов (common OR). Этот анализ аналогичен анализу взаимодействия с помощью логистической регрессии.

Гомогенная ассоциация – симметрическое свойство, которым может обладать любая пара переменных, которая рассматривается на уровнях (стратах) третьей переменной. Если пара имеет гомогенную ассоциацию, то нет эффекта взаимодействия этой пары и третьей переменной. Т.е. если мы рассматриваем исход и предиктор (пара) и выясняем, что они взаимодействуют одинаково при всех значениях конфаундера, то ассоциация (связь) исхода и предиктора гомогенна, конфаундер не меняет их ассоциации.

Существует несколько критериев гомогенной ассоциации (гомогенности отношений шансов) по всем стратам: Breslow-Day тест, тест Breslow-Day с поправкой Tarone, Zelen’s тест и др. Нулевая гипотеза для таких тестов гласит H0 :ORi OR, i 1, L , т.е. отношение шансов одинаково для всех страт1.

Если критерии подтверждают наши предположения, и отношение шансов одинаково по всем стратам, то далее конфаундер может быть исключен из анализа.

Если нас интересует общий эффект предиктора, то проверяется гипотеза об общем отношении шансов H0 :OR 1 , т.е. изменение в предикторе не меняет

1 Критерий гомогенной ассоциации также используется при проверке качества подгонки (goodness of fit) логистической регрессии.

180

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение