Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

h t , измеряется как количество случаев на один объект наблюдения в единицу времени, h t является аналогом моментальной скорости наступления событий в единицу времени.

Чтобы не давать точного математического описания взаимосвязи этих величин, рассмотрим пример.

Предположим, случайное событие наступает 1 раз в 100 лет. Разобьем весь наш интервал наблюдения в 100 лет на k равных интервалов, например 1 год. Вероятность того, что событие не наступит через год после начала т.е.

выживаемость S 1 1 1001 0,99.

Кумулятивная вероятность того, что событие не наступит через два года равна вероятности того, что событие не наступило в первый год, умноженная на

вероятность не наступления события во второй год: S 2 S 1 1 0,01 1 0,01 2 .

Для k -го года наблюдений кумулятивная вероятность выживания составит S k 1 0,01 k , для ста лет S 100 1 0,01 100 . В Табл. 18–3 приведены расчеты для

различного числа лет. Как видно, кумулятивная вероятность наступления события через 100 лет составит 63%.

Таблица 18–3. Расчет кумулятивной вероятности во времени

 

 

 

k

S k

F k

 

 

 

1

0,99

0,01

 

 

 

2

0,9801

0,0199

 

 

 

10

0,9044

0,0956

 

 

 

50

0,6050

0,3950

 

 

 

100

0,3660

0,6340

 

 

 

Теперь предположим, у нас есть некоторый промежуток времени наблюдения0,t и постоянная функция риска h . Для вычисления кумулятивной вероятности

события

мы

разобьем этот промежуток на большое

число интервалов k .

Вероятность

выживания

в конце промежутка

наблюдения составит

 

 

t 0

k

 

 

S t 1 h

k

. При k осуществляется предельный переход и известно из

 

 

 

что предельный переход дает функцию S t exp ht .

математического анализа,

Кумулятивная инцидентная функция будет определяться как F t 1 exp ht .

Однако, функция риска может сама изменяться от времени. Обычно ее обозначают h t . Предположим, у нас есть две группы пациентов, которых мы

наблюдаем во времени: группа экспериментального лечения и группа традиционного лечения.

Отношение рисков (hazard ratio) в двух группах HR t h1 t . По отношению h2 t

рисков можно судить об эффекте воздействия экспериментального лечения по сравнению с традиционным или значимости фактора риска. Если отношение меньше единицы, то экспериментальное лечение возможно снижает риск наступления неблагоприятного события в группе 1 по сравнению с группой 2. Также, если мы говорим о некотором воздействии неблагоприятного фактора, то

201

если отношение рисков более 1, то есть основания говорить о неблагоприятном факторе (воздействии) в группе 1,

Статистическая задача – доказать, что это отношение значимо (т.е доверительный интервал не включает единицу, поскольку рассматриваем отношение). Теория оценивания отношения риска такова, что нам не обязательно знать сами функции риска групп и их изменение во времени.

Предположение, которое лежит в основе многих тестов и моделей – это предположение о пропорциональности функций риска (proportional hazard assumption), т.е., что HR t HR const . Тогда мы можем говорить о том, что

некоторая группа на всем протяжении времени исследования имеет более высокий (низкий) риск, чем другая.

18.5.Регрессионная модель пропорциональных рисков Кокса

В уравнении

линейной

регрессии

 

 

E y |x β0

β1x1

β2x2 βp xp

предполагалось,

что

предикторы

связаны

со

средним

исхода напрямую, в

 

 

 

 

π x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

логистической регрессии

log

 

 

β

0

β

1

x

1

β

2

x

2

β

p

x

p

предполагалось,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 π x

 

 

 

 

 

 

 

 

исхода π x E y|x логит-

что предикторы

связаны

с условной вероятностью

 

преобразованием. В модели пропорциональных рисков Кокса линейная комбинация предикторов связана с отношением рисков через логарифмическое преобразование:

log HR x logh t |x β1x1 β2x2 βp xp ,

h0 t

где h t |x – функция риска в момент времени t для наблюдения с набором значений ковариат-предикторов x , h0 t – базовая функция риска во времени, при условии, что значения всех предикторов равны нулю.

Решая уравнение относительно h t |x , получим: h t |x h0 t exp β1x1 β2x2 βp xp h0 t HR x .

Это уравнение описывает мультипликативную модель в том смысле, что эффект предикторов умножается на базовую функцию риска. В линейной модели мы имели аддитивный эффект предикторов: при изменении xk на единицу шкалы

измерения предиктора xk , y имеет изменение на βk единиц шкалы исхода y . В

модели Кокса эффект мультипликативен: базовая функция риска умножается на эффект от предикторов.

Экспоненциальное преобразование линейной комбинации предикторов всегда положительно. Если выражение логарифмировать, то получим:

log h t |x log h0 t β1x1 β2x2 βp xp ,

log h0 t играет роль β0 – пересечения для уравнения линейной регрессии. Подобно β0 в логистической регрессии, h0 t не используется в интерпретации результатов, только для "центрирования" линейной комбинации предикторов.

Основное предположение модели пропорциональных рисков Кокса – связь между отношением рисков и предикторами логлинейна, отношение рисков пропорционально на всем времени наблюдения и не зависит от времени.

Ремарка: Регрессия Кокса моделирует функцию риска, а не выживаемость.

202

18.6.Регрессия Кокса с бинарным предиктором

Отношение рисков HR t h t | x 1 h0 t exp β1 exp β

1

.

Т.е. отношение

h t | x 0

h0

t

 

 

со значениями 0

Пусть предиктором является биноминальная переменная x

и 1. Запишем функцию риска h t | x h0 t exp β1x .

 

 

 

 

При x 1, h t | x 1 h0 t exp β1 ;

 

 

 

 

 

при x 0, h t | x 0 h0 t exp β1 0 h0 t .

 

 

 

 

 

рисков изменяется в exp β1 раз, если в модели учитывается бинарная переменная (например, 2 группы лечения, пол и пр.).

Если значимо β1 0, exp β1 1, мы наблюдаем увеличение риска в exp β1

раз при сравнении двух групп, бинарная переменная увеличивает риск исхода, снижает выживаемость.

Если значимо β1 0, 0 exp β1 1 , т.е мы наблюдаем уменьшение риска в exp β1 раз при сравнении двух групп, бинарная переменная снижает риск исхода, увеличивает выживаемость.

Ремарка: Используя термин "риск" в данном контексте, мы подразумеваем, что речь не идет о кумулятивном риске за весь период наблюдения, а именно о функции h t .

Для проверки

значимости параметра β1

тестируется нулевая гипотеза,

которая гласит, что

H0 :β1 0, т.е.

риски равны

в обеих группах. Если β1 0,

exp β1 1, мы наблюдаем равенство

рисков при сравнении двух групп, что означает

– бинарная переменная не влияет на выживаемость. Эта модель аналогична логранговому тесту, который сравнивает выживаемость в двух группах.

Если в модели линейной регрессии мы могли предсказать значение исхода по значениям предиктора непосредственно из уравнения линейной регрессии, в логистической регрессии мы преобразовывали линейную комбинацию предикторов для получения предсказанной вероятности наступления события. Для того, чтобы получить ожидаемую (прогнозируемую) функцию выживаемости на основе модели Кокса, нужны более сложные преобразования и расчеты, которые учитывают не только полученные параметры модели, но также все наблюдения в исследуемой когорте. Т.е. на основании модели можно оценить отношение рисков, базовая функция выживаемости строится на основании имеющихся данных в исследуемой когорте, и уже потом модифицируется с учетом рисков, привносимых предикторами.

18.7.Регрессия Кокса с количественным предиктором

Пусть предиктором

является количественная

переменная x . Запишем

функцию риска h t | x h0 t exp β1x .

 

 

 

 

При x x1 , h t |x x1 h0 t exp β1x1 ;

 

 

 

 

при x x1

1,

 

 

 

 

 

 

 

h t | x x1

1 h0 t exp β1 x1 1

 

 

 

 

h0 t exp β1x1

β1 h0 t exp β1x1 exp β1 .

 

 

 

 

Отношение

рисков

HR t h t | x x1 1

h0 t exp β1x1 exp β1

exp β

 

,

 

1

 

 

 

h t | x x1

h0 t exp β1x1

 

log HR t β1 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

203

Отношение рисков изменяется в exp β1 раз, если переменная x увеличивается на 1.

Если значимо β1 0, exp β1 1, мы наблюдаем увеличение риска в exp β1

раз при увеличении количественной переменной на единицу шкалы ее измерения, переменная увеличивает риск исхода, снижает выживаемость.

Если значимо β1 0, 0 exp β1 1, мы наблюдаем уменьшение риска в exp β1 раз при увеличении количественной переменной на единицу шкалы ее измерения, переменная снижает риск исхода, увеличивает выживаемость.

Для проверки значимости параметра β1 тестируется нулевая гипотеза, которая гласит, что H0 :β1 0, т.е. риски равны при изменениях количественной переменной. Если β1 0, exp β1 1, т.е мы не наблюдаем изменений в риске т.е. количественная переменная не влияет на выживаемость.

18.8.Взаимодействие предикторов в модели Кокса

Взаимодействие двух предикторов порождает модель:

log h t |x log h0 t β1x1 β2x2 β3x1x2 .

Как и в других моделях, отсутствие взаимодействия двух предикторов (влияние конфаундера на пару предиктор-исход) проверяется тестированием гипотезы H0 :β3 0.

18.9.Проверка предположений модели регрессии Кокса

 

В основе модели регрессии Кокса лежит два предположения: логлинейности и

пропорциональности рисков (log-linearity and proportional hazards).

 

 

Предположим, у нас есть две группы, для которых мы рассчитали S1 t

и

S2

t . Если предположение о пропорциональных рисках выполняется,

то

S2

t S1 t exp β . Далее используется двойное преобразование, которое называется

лог-минус-лог преобразование (берется логарифм выражения, затем меняется знак

выражения и выражение логарифмируется еще раз) : log S2 t log S1 t exp β ;

log log S2 t log log S1 t β .

Параметр β отличает одно преобразованное выражение от другого, смещая его на β . Т.е. две функции равномерно отстоят друг от друга, если β const .

Далее строится график зависимости от времени двух преобразованных функций log log S1 t и log log S2 t ( S t может быть получено, например,

путем расчета оценки Каплан-Майера). Если линии отстоят друг от друга на одинаковом расстоянии, то предположение о пропорциональности рисков не нарушается. Обычно время откладывается на логарифмической оси. В этом случае сами функции имеют форму, близкую к прямой линии в случае пропорциональных рисков.

На рис 18–6 приведены два примера, в первом случае риски можно считать пропорциональными, во втором случае – явно нет.

204

Рис. 18–6. Графическая диагностика предположения о пропорциональности рисков

Если работать с моделью, в которой нарушено предположение, то можно получить модель, неадекватную имеющимся данным. На рисунке 18–7 слева – графики Каплан-Майера по выживаемости в двух группах, для которых риски непропорциональны, справа графики выживаемости, построенные на основе параметров Кокс-регрессии на этих же данных (т.е. модель данных с одним бинарным предиктором). Как видно, модель совершенно не отражает поведение данных. Математически расчеты могут быть проведены в любом случае, оценить результаты расчетов – это задача исследователя.

Рис. 18–7. Неадекватность модельных расчетов при нарушения предположения о пропорциональности рисков.

В случае пропорциональных рисков модель адекватно отражает поведение данных (рис. 18–8).

Кроме графической проверки используется тест Шоенфельда (Schoenfeld) корреляции остатков. Рассматриваются только остатки в момент времени наступления события. Эти остатки не должны коррелировать со временем (т.е. не изменяться со временем). Если корреляция статистичеки значима, то это означает, что нарушается предположение о пропорциональности рисков. Тест Шоенфельда имеет графическое отображение в некоторых статистических пакетах (см. рис 18–9) как изменение стандартизованной оценки параметра во времени.

205

Рис. 18–8. Оценка Каплан-Майера и модельные оценки функции выживаемости при соблюдении предположения о пропорциональности рисков

4

βˆ

2

0

-2

4.5

7.4

8.9

12

13

16

18

21

Log (t)

Рис 18–9. График поведения стандартизированной оценки параметра во времени

Если же отношение рисков непропорционально меняется во времени, иначе говоря, нарушается предположение о пропорциональности рисков, то тогда нельзя напрямую пользоваться Кокс-регрессией. Это нарушение видно на графике (Рис.18– 9) изменения коэффициентов β во времени. β стандартизирована, отклонение в 2

– это значимое влияние переменной исследования на исход, но со временем значение падает до 0.

Линейность для количественных переменных анализируется аналогично логистической регрессии (Раздел 17.9), только в качестве вспомогательной регрессии используется Кокс-регрессия. В случае нелинейности количественной переменной мы можем также разбивать на интервалы или трансформировать эту переменную. Но это нелинейная зависимость исхода и количественного предиктора. И все статистические рассуждения и выводы будут касаться преобразованных значений количественной переменной.

18.10. Оценка значимости и согласованности модели пропорциональных рисков Кокса

Как и в других линейных моделях, статистические пакеты рассчитывают критерий отношения правдоподобия для модели Кокс-регрессии.

206

Кроме этого, рассчитывается индекс согласованности (Concordance index, c- index), который определяет вероятность согласованности для двух случайных наблюдений, согласованность в данном случае означает, что в паре наблюдение с более коротким временем выживаемости имеет более высокий риск. Индекс согласованности рассчитывается не только для оценки Кокс-регрессии, но и для других моделей, которые включают в себя вероятность наступления события.

Если в модели есть одна количественная переменная, индекс согласованности эквивалентен τ Кенделла. Значение индекса 1 – это полная согласованность, значение 0,6–0,7 – это типичный результат для данных по выживаемости; 0,5 – это означает, что согласованность имеет случайный характер; менее 0,5 – возможно, что наблюдение с более коротким временем выживаемости имеет менее высокий риск, т.е. необходимо понять как именно должен интерпретироваться исследуемый фактор риска.

Вычисление проводится для всех n n 1 2 пар наблюдений в выборке. Для

данных выживаемости, однако, не все пары сравнимы. Например пара времен (5+, 8). Первое наблюдение цензурировано, и мы не знаем, на самом деле время выживания первого наблюдения больше или меньше, чем второго. Тем не менее, индекс согласованности, с учетом связок (одинаковые значения времени до события или одинаковые значения предиктора), может давать информацию о качестве подгонки модели.

18.11. Замечания по использованию регрессии Кокса

Как и в случае с логистической регрессией, для оценки одного параметра нужно около 10 наблюдений с интересующим исходом (т.е. наблюдений до наступления события). Количество цензурированных наблюдений может быть разным.

Модель регрессии Кокса, как и другие модели, можно использовать для предсказания значений исхода по заданному набору предикторов. При этом оцениваются также доверительные интервалы для предсказанных значений.

Аналогично тому, как логистическая регрессия оценивает отношение шансов, регрессионная модель пропорциональных рисков Кокса дает возможность исследовать отношение рисков.

Для преодоления нарушений пропорциональности и логлинейности могут использоваться регрессионная модель Кокса, с ковариатой, зависящей от времени (time-dependent covariate). Но и такие модели не всегда дают удовлетворительную подгонку модели. Решение о трансформации предикторов принимается для конкретного набора данных.

Модель Кокса является полупараметрической моделью, когда мы не знаем (не оцениваем) параметры распределения, лежащего в основе кумулятивной вероятности наступления события. Существуют модели, учитывающие форму распределения (чаще всего распределение Вейбулла, экспоненциальное распределение, распределение Гомпетца и др.). Регрессионный подход остается таким же, как и для вышеописанных моделей.

207

18.12. Основные типы выживаемости при исследовании онкологических заболеваний

Медианная выживаемость (median survival)

Медианная выживаемость (median survival) – это мера того, как долго пациенты будут жить с определенной болезнью или после лечения. Вероятность остаться в живых свыше срока медианной выживаемости составляет 50%.

Определение:

Медианная выживаемость – это срок, который означает, как долго выживают пациенты с заболеванием в общем или после соответствующего лечения. Это время (выраженное в месяцах или годах), когда ожидается, что половина пациентов жива. Это означает, что вероятность выжить более этого времени составляет 50%.

Пример:

Медианная выживаемость пациентов с I стадией фолликулярной лимфомы после лечения радиационной терапией составляет 10 лет.

Для конкретного пациента это означает, что вероятность остаться в живых свыше 10 лет равна 50%.

Общая выживаемость (overall survival, OS)

Общая выживаемость – указание пропорции наблюдаемых в пределах группы, кто, как ожидается, выживет свыше указанного времени. Общая выживаемость учитывает смертельный исход по любым причинам – как связанным, так и несвязанным с исходным заболеванием.

Определение:

Общая выживаемость – характеристика, которая определяет вероятность остаться в живых для наблюдаемых в пределах группы с некоторым заболеванием. Общая выживаемость указывает процент наблюдаемых в группе, которые возможно останутся живы свыше определенного времени. На базовом уровне, общая выживаемость показывает соотношение эффективности лечения.

Пример:

5-летняя общая выживаемость для стадии IIA Ходжкинской лимфомы составляет 80%, когда лечится с применением препарата XXX, включая радиотерапию.

Это означает, что из всех пациентов в наблюдаемой группе со стадией IIA Ходжкинской лимфомы 80% осталось в живых после 5 лет наблюдения.

Причинно-специфическая выживаемость (cause-specific survival, CSS)

Причинно-специфическая выживаемость – это характеристика, подобная общей выживаемости. Он измеряет пропорцию наблюдаемых, которые умрут, как ожидается, от рака за определенное время. Отличие от общей выживаемости в том, что исключаются (цензурируются) случаи смерти, не связанные с раком.

Определение:

Причинно-специфическая выживаемость – характеристика, которая означает вероятность смерти в силу (или по причине) специфических условий в определенный момент времени. Исключаются смерти, не связанные с болезнью. Используется в описании выживаемости в клинических и популяционных исследованиях.

Пример:

208

''5-летняя причинно-специфическая выживаемость для стадии IIA Ходжкинской лимфомы составляет 85%, когда лечится с применением препарата XXX, включая радиотерапию. ''

Это означает, что 15% из этих пациентов умрет непосредственно из-за болезни IIA Ходжкинской лимфомы в течение 5 лет. Оставшиеся 85% будут живыми или умрут по другим несвязанным с основным заболеванием причинам.

Выживаемость, свободная от заболевания (disease-free survival, DFS)

Выживаемость, свободная от заболевания – мера пропорции между всеми пациентами, которые лечились от рака и теми из них, кто не заболел спустя определенное время после лечения.

DFS означает вероятность остаться свободным от заболевания после специфического лечения для группы наблюдаемых, страдающих от рака. Это – процент наблюдаемых в группе, кто, вероятно, свободен от заболевания после указанного периода времени. Отношение DFS – индикатор того, насколько эффективно определенное лечение.

Очень часто, две стратегии лечения сравниваются на основании DFS, которая достигается в подобных группах.

DFS часто используется вместе с термином общая выживаемость при описании исследований.

Пример: ''2-летняя DFS для стадии IIA Ходжкинской лимфомы составляет 80%, когда лечится с новой комбинацией препаратов.'' Это подразумевает это после этого лечения, 80% из тех, кто принимал это лечение, свободен от заболевания в течение 2 лет.

Бессобытийная выживаемость (event-free survival, EFS)

Бессобытийная выживаемость – это мера пропорции наблюдаемых в пределах группы, у которых нет осложнений после лечения, которое разработано чтобы предотвратить или задержать определенные осложнения.

Определение:

Бессобытийная выживаемость – характеризует возможность возникновения специфического события (группы событий) после лечения, которое проектируется, чтобы задержать или предотвратить эти события.

Бессобытийная выживаемость рассчитывается, когда дается определенное лечение для предотвращения или сдерживания специфических осложнений болезни.

Пример:

1-летняя бессобытийная выживаемость для боли в костях при лимфомах после лечения радиотерапией составляет 50%. Это означает, что у 50% пациентов, после лечения радиотерапией не наступит боли в костях в течение года.

Основные аспекты

При анализе выживаемости исследуется процесс, связанный со временем.

Функция риска (моментальный риск) не измеряется напрямую, интерес представляет отношение рисков в исследуемой популяции.

Проверка допущений, лежащих в основе модели – обязательна.

Использование графического материала в анализе выживаемости очень важно.

209

19. Выбор предикторов для модели и рекомендации по построению регрессионных моделей

Выбор предикторов по сей день остается самой нетривиальной задачей анализа данных. Единого алгоритма выбора не существует. Есть последовательность шагов, которые надо проделать, чтобы получить модель, описывающую ваши данные, но решение на каждом шаге принимает исследователь.

Конечная модель должна быть мотивированно обоснована, интерпретируема, убедительна; предположения, лежащие в основе модели, должны соблюдаться.

Рекомендации по выбору предикторов и построению моделей

1.Переменная исхода должна быть единственная и адекватно представлять результат исследования. Переменная, представляющая интерес для исследователя

(variable of primary interest, primary variable) – чаще всего фактор риска или прогностический фактор, т.е. предиктор, – должна быть тщательно описана, выявлены ее связи с переменной исхода и другими возможными предикторами, чтобы понять их влияние на исследуемый фактор1.

2.В исследовании не должно быть более 15–20 потенциальных предикторов.

Это объясняется следующим рассуждением. Уровень значимости исследования α 0,05 предполагает, что в одном из 20 случаев мы можем допустить ошибку. Таким образом, наличие более чем 20 параметров исследования приводит к тому, что некоторая связь (из более чем 20) между предполагаемым предиктором и исходом может быть получена случайно.

3.Построению модели всегда должен предшествовать анализ связи между предполагаемым предиктором и исходом.

4.Некоторые авторы указывают, что если для предполагаемого предиктора и исхода установлена связь или ассоциация на уровне значимости p 0,25, то

потенциально такой предиктор можно включать в предварительную мультивариантную модель, поскольку возможно, что его взаимодействие с другими переменными модели выявит его значимое влияние на исход (маскирующий эффект вмешивающихся переменных).

5. Основная проблема обсервационных наблюдений (см. раздел 2) – это наличие скрытых влияний, смещающих истинную оценку связи исследуемого фактора с исходом. Поэтому конфаудеры включают в модель для снижения эффектов искажения, исследуют их взаимодействие с изучаемым фактором и исходом.

Общее правило:

если способ выборки объектов исследования или сбора данных ведет к некорректной ассоциации, говорят об уклоне/смещении (bias) данных;

1 Анализ двух переменных называется бивариантным анализом (bivariate analysis), в котором нас не интересует, какая из переменных является зависимой, мы пытаемся обнаружить связь между двумя переменными. Модель (регрессионная) с одним предиктором называется унивариантной моделью или унивариантным анализом (univariate analysis), который предполагает, что зависимая переменная определяется значениями (уровнями) одной независимой переменной. В англоязычной литературе, например, встречается следующее: если вы используете критерий Фишера таблиц 2 х 2 – это bivariate analysis, если логистическую регрессию для тех же данных с одним предиктором – это univariate analysis, и т.п.

210

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение