Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

 

1.0

 

0.8

Sensitivity

0.4 0.6

 

0.2

 

0.0

4.150 (0.714, 0.800)

AUC: 0.771 (0.483–1.000)

1.0

0.8

0.6

0.4

0.2

0.0

 

 

1-Specificity

 

 

Рис.12–1. Характеристическая кривая, графическое изображение результатов расчета

Площадь под кривой (area under curve – AUC) – это мера прогностичности количественной переменной, иногда называется индекс конкордации (concordance index). В контексте конкретного исследования – это может быть качество диагностического или прогностического фактора. AUC считают в долях, 1 – максимально возможное значение, 0,5 – совершенно неинформативный фактор.

AUC 1 n 1 Sni Sni 1 Spi Spi 1 .

2 i 1

Рассчитывается стандартная ошибка

 

 

 

AUC

 

 

2

 

2 AUC

 

2

 

 

 

 

AUC 1 AUC n 1

 

 

 

AUC

 

 

m 1

 

AUC

 

 

 

 

 

AUC

 

 

1 AUC

 

SE AUC

2

 

 

 

 

 

 

 

 

.

 

 

 

n m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Доверительный интервал рассчитывается как:

AUCL AUC zγ SE AUC ;

AUCU AUC zγ SE AUC ,

где zγ – значение -квантиля нормального распределения,

γ 1 α

для

 

2

 

двустороннего интервала, т.е. для α 0,05 γ 0,975.

 

 

Шаг 4. Определение наиболее подходящей точки разбиения (порога, границы, уровня).

Характеристическая кривая – это графическая иллюстрация соотношения между чувствительностью и специфичностью. Она всегда представляет собой ломанную линию, на рис 12–2 представлена ее функциональная аппроксимация, чтобы продемонстрировать точки перегиба, а также прямую линию (диагональ) абсолютно неинформативного разбиения.

Характеристическая кривая показывает, насколько сложен компромисс между чувствительностью и специфичностью теста. С помощью этой кривой можно определить оптимальное значение точки разделения. Как правило, это точка перегиба. Общая оценка эффективности разделения на две группы может быть

111

представлена в виде площади под характеристической кривой: чем больше эта площадь, тем эффективнее разделение. С помощью значения AUC можно сравнивать два теста.

 

1

 

 

0,9

 

чувствительность

0,8

 

0,4

 

 

0,7

 

 

0,6

 

 

0,5

Тест A

 

 

 

 

Тест B

 

0,3

 

 

0,2

 

 

0,1

 

 

0

 

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

 

 

 

1-специфичность

 

 

 

 

Рис 12–2. Характеристические кривые (условные) для тестов с различной информативностью

Влияние выбора точки разделения на чувствительность и специфичность показано на рисунке 12–3.

Нет заболевания

Есть заболевание

1

2

+

 

 

 

 

+

Рис 12–3. Выбор точки разбиения

Точка 1 характеризуется:

более высокой чувствительностью; большей долей ложно-позитивных результатов; более низкой специфичностью.

112

Точка 2 характеризуется: меньшей чувствительностью;

большей долей ложно-негативных результатов; большей специфичностью.

Чаще всего выбирают такую точку разбиения xi количественной переменной, у которой сумма Spi Sni максимальна.

Интерпретация оценок чувстительности и спцифичности см. п.11.1.1.

В Приложении R-8 содержатся R-скрипты для расчетов данного примера, построения графика, выбора точки разбиения.

12.2.Анализ двух групп: расстояние между группами

Иногда необходимо определить не только различие по местоположению двух групп, но и оценить это различие (оценить размер эффекта). Если в парном сравнении достаточно было определить разность между парами, как случайную величину и вычислить среднее и доверительный интервал (раздел 9.3), то действия по оценке разности между двумя независимыми группами будут немного отличаться.

Шаг 1. Пусть имеются две выборки (обе взяты из нормального распределения) размером n1 и n2 . Определим среднее и выборочную дисперсию в двух группах:

x1 ,s12 и x2 ,s22 .

Шаг 2. Рассчитать общую дисперсию как s2 n 1 s2 n 1 s2 .

1 n 1 n 22 2

1 2

 

 

 

 

 

 

1

 

1

 

.

 

Шаг 3. Рассчитать общую стандартную ошибку: SE

s2

 

n

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

1

2

 

 

 

Шаг 4. Среднее разности между двумя случайными величинами: d x2 x1 ;

 

Нижняя граница интервала : dL d tγ ; n1 n2 2 SE ;

 

 

 

 

 

 

 

 

 

верхняя граница интервала: dU d tγ ; n1 n2 2 SE ,

 

 

 

 

 

 

 

 

 

где tγ ; n1 n2 2 – значение γ -квантиля распределения Стьюдента с n1 n2

2

степенями свободы, γ 1 α

2

для двустороннего

интервала, т.е.

для

 

 

 

 

 

 

 

 

 

 

 

α 0,05 γ 0,975, для одностороннего интервалаγ 1 α ;

 

 

 

 

 

 

 

 

 

n – численность выборки.

Если доверительный интервал не содержит значение 0, значит разность статистически значимо отлична от нуля. В этом случае размер эффекта есть разность и доверительный интервал разности.

Основные аспекты

Тестироваться может как местоположение, так и рассеяние переменной, представленной выборочными значениями.

В случае наличия значимых различий в местоположении, может быть произведена оценка таких различий, т.е. определен размер эффекта.

Количественную переменную можно представлять, как номинальную переменную и порог разделения может быть обоснованно выбран в случае, если группы разделяются по местоположению.

113

Если нет доказательств, что группы могут разделяться, то и проводить ROCанализ не имеет смысла.

114

13. Бивариантный анализ: биноминальная и мультиноминальная переменные (таблицы 2 c )

Исходные данные представляются таблицей 2 c (Табл.13–1). Мультиноминальная переменная может быть упорядоченной и неупорядоченной.

Таблица 13–1. Представление данных таблицей 2 c

 

 

 

 

 

 

Фактор

 

 

 

 

Категория

Категория

Категория

Категория

 

 

1

2

 

j

 

с

 

Да

x11

x12

 

x1 j

 

x1c

m1

 

 

 

Состояние Нет

 

 

 

 

 

 

 

x21

x22

 

x2 j

 

x2c

m2

 

 

 

 

n1

n2

 

n j

 

nc

N

 

π1

π2

 

π j

 

πc

 

Анализ неупорядоченных биноминальных выборок

Для анализа исхода и неупорядоченной мультиноминальной независимой переменной мы имеем c групп (c независимых выборок). Проверяется гипотеза о эквивалентности всех пропорций H0 :π1 π2 πc против гипотезы HA , что хотя

бы одно из равенств не выполняется. Гипотеза проверяется χ 2 -тестом Пирсона (см.

анализ неупорядоченных таблиц r c ).

 

Для чего

рассчитываются ожидаемые

частоты для каждой ячейки таблицы как

ˆ

 

mi nj

. Если в таблице есть нулевые

 

 

 

xij

N

 

 

 

 

ячейки (empty cells), то правильнее всего будет соединить две или несколько категорий в одну не нарушая медико-биологического смысла категорий. Также не менее 80% ячеек таблицы должны иметь оценки ожидаемых частот не менее 5. Если

это правило не соблюдается, то лучше использовать не χ 2 -тест Пирсона, а точный тест Фишера-Фримена-Халтона.

Если гипотеза H0 об эквивалентности пропорций отклоняется, то интерес

представляет, какие именно неупорядоченные категории порождают значимую разницу в пропорциях. Мы можем также сравнить пропорции только в двух категориях, представив их таблицей 2 2. Однако уровень значимости α должен быть уменьшен. Поправка Бонферрони (Bonferroni) для множественных сравнений

рассчитывается в зависимости от количества сравнений. Максимальное количество

сравнений в таблице 2 c

равно в c c 1 2. Например, при

c 5,

α 0,05/ 5 5 1 /2 0,005. Эта поправка является достаточно жесткой, есть более

лояльные: Шидака (Šidák), метода Holm–Bonferroni и др.1

Сравнение двух пропорций подробно изложено в разделе 11, можно использовать те же статистические тесты, доверительные интервалы, только с учетом поправки.

Подробно алгоритм расчета χ 2 -тест Пирсона и примеры даны в разделе 14 для анализа неупорядоченных таблиц r c .

1 Обзор и анализ поправок для множественных сравнений см. в книге Dmitrienko et al (2005).

115

Анализ упорядоченных биноминальных выборок

В случае упорядоченной мультиноминальной зависимой переменной мы можем сначала воспользоваться χ 2 -тестом Пирсона (точным тестом Фишера-

Фримена-Халтона) для выявления неоднородности таблицы 2 c (с теми же оговорками, которые были приведены выше для неупорядоченных категорий, о пустых ячейках и ожидаемых частотах), затем проверить наличие тренда в пропорциях, ответить на вопрос увеличивается (уменьшается) пропорция при возрастании/убывании категориальной переменной. Иначе говоря, проверить гипотезу о том, что c независимых выборок имеют одинаковую пропорцию против гипотезы о том, что существует тренд в пропорциях.

Для проверки гипотезы о тренде используется тесты трендов (trend test). Типичное биомедицинское применение – связь дозы-отклика в клинических испытаниях или в исследованиях случай-контроль. Также в качестве упорядоченной мультиноминальной переменной может выступать степень тяжести заболевания или группа риска. Исследуемый бинарный фактор в этом случае не должен принимать участия в определении степени тяжести или группы риска.

В тестах выдвигается нулевая гипотеза о равенстве пропорций против гипотезы о тренде в пропорциях. Один из тестов приведен ниже, чтобы понять основы расчета таких тестов.

Шаг 1. Таблица (см. табл.13–2) дополняется весами для каждой категории w j , j 1, ,c . Для линейного тренда веса определяются как w j j 1, j 1, ,c , для

квадратичного тренда w j j 1 2 , j 1, ,c и т.д. Тренд может быть нелинейным и

веса можно выбрать пропорционально уровню фактора, например, если уровни воздействия : 0, 100, 500, 7000+, то веса можно выбрать 0,1,5,70. и т.д. Одно существенное замечание для линейного тренда: неважно, какие числа выбраны в качестве весов, важно только, что они расположены равномерно, с одинаковым шагом.

Таблица 13–2. Выбор весов категорий для определения тренда в таблицах 2 c

 

 

 

Фактор

 

 

 

Категория

Категория

 

… Категория …

Категория

 

 

1

2

 

 

j

с

 

Да

x11

x12

 

 

x1 j

 

x1c

m1

Состо-

 

 

 

 

 

 

 

 

яние Нет

x21

x22

 

 

x2 j

 

x2c

m2

 

n1

n2

 

 

n j

nc

N

Веса

 

 

 

 

 

 

 

w1

w2

 

 

w j

wc

 

Пример весов

0

1

 

 

j 1

c 1

 

для линейного

 

 

 

 

 

 

 

 

тренда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пример весов

02

12

 

 

j 1 2

c 1 2

 

для

квадратичного

тренда

116

 

 

 

 

 

 

 

 

 

c

 

 

 

 

 

m n

j

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N2 N 1

 

 

w

x

 

 

 

1

 

 

 

 

 

 

 

 

1 j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

N

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

Шаг

2.

Рассчитывается

статистика χ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

c

 

 

 

 

c

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m1m2

N njw2j

 

w jnj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j 1

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поправка

на

 

1

в формуле используется,

если

 

веса

берутся с

непрерывность

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

одинаковым шагом (для линейного тренда), иначе вместо

 

 

 

используется 0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m n

j

 

 

Ремарка: Выражение x

 

 

1

– это разность между наблюдаемой и ожидаемой частотой. Часто

1 j

 

 

 

 

N

 

 

 

 

 

 

 

 

 

используется в критериях для анализа категорий.

 

 

Статистика подчиняется χ 2 распределению с одной степенью свободы.

Если значение рассчитанной статистики χ 2 превышает

χ 2 χ 21 α ;1 , то

предполагается наличие тренда с уровнем значимости α , где

χ 21 α ;1 – это 1 α

квантиль χ 2 -распределения с одной степенью свободы.

Шаг 3. Если не обнаружено значимого наличия тренда, это означает, что категории независимой переменной не ассоциируются с исходом (зависимой переменной). Следовательно, можно рассчитать оценку общей пропорции для всей

выборки как отношение m1 и соответствующие доверительные интервалы, если это

N

необходимо.

Если выявлен линейный тренд, то далее можно провести более углубленный анализ. Оценки пропорций – это ряд случайных величин и их стандартные ошибки, полученных из биноминального распределения, и мы сможем построить регрессию уже на базе этих оценок.

Например, исследуется количество послеоперационных инфекционных осложнений в зависимости от состояния пациента непосредственно перед операцией (или некоторого параметра анализа крови, например, нейтрофилов, и т.п.). Рассчитывается количество пациентов в каждой группе, фиксируется количество послеоперационных инфекционных осложнений в каждой группе, находится пропорция случаев в каждой группе. Определяется, существует ли тренд в пропорциях в зависимости от тяжести состояния (возрастания/убывания интересующего параметра крови).

Иной пример – также количество послеоперационных инфекционных осложнений в определенном отделении клинике, но по годам. Определяется количество проведенных операций в год, количество послеоперационных инфекционных осложнений для каждого года. Определяется, существует ли тренд в пропорциях по годам – как изменилось качество постоперационного ухода.

Задачи совершенно разные, и выводы в одном случае касаются фактора риска, в другом – качества лечения в определенном отделении клиники. Однако, и в том и в ином случае используется один и тот же тест.

Также можно исследовать возрастание рисков при возрастании/убывании категорий. В этом случае первая или последняя категория принимается за базовую

117

(baseline), относительно нее считаются отношения шансов в остальных категориях. Мы получаем ряд случайных величин и их стандартные ошибки. Они также могут быть исследованы с помощью регрессии (обычно используются логарифмы отношения шансов). Нужно заметить, что для построения регрессии нам надо иметь хотя бы 5–8 категорий для получения статистически устойчивых утверждений. Если категорий 2–3, то не имеет смысла обращаться к более сложному виду анализа.

Основные аспекты

Если таблица сопряженности имеет размерность 2 c , то ее можно трактовать, как ряд пропорций, определяемый соответствующей категорией.

Пропорции можно анализировать, как биноминальные переменные (находить оценки и доверительные интервалы).

Если категории упорядочены, то можно предположить, что есть тренд в пропорциях и подробно исследовать его.

Выбор теста диктуется не медико-биологической сутью переменных, а свойствами шкал измерений, распределений, лежащих в основе переменных исследования.

118

14. Бивариантый анализ: мультиноминальная и мультиноминальная переменные (таблицы r c )

Анализ таких переменных сводится к анализу неупорядоченных таблиц r c . Таблица представляется, как показано ниже (Табл. 14–1).

Таблица 14–1. Представление данных таблицей r c

 

 

 

 

 

 

 

 

 

 

 

1

2

j

c

 

 

 

 

 

 

 

 

 

 

 

 

 

1

x11

x12

 

x1 j

 

x1c

 

c

 

 

 

m1

x1 j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j 1

 

2

x21

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

xi1

 

 

xij

 

xic

 

c

 

 

 

 

mi

xij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

xr1

 

 

xrj

 

xrc

 

 

 

 

r

 

r

 

 

r

c

 

n1 xi1

 

 

nj xij

 

 

N mi

nj

 

i 1

 

 

i 1

 

 

 

i 1

j 1

 

 

 

 

 

 

 

 

 

 

Каждое наблюдение попадает только в одну из ячеек таблицы, все категории являются альтернативными. Таким образом, в ячейке содержится количество случаев, попадающих в одну из категорий по каждой из двух переменных.

Все замечания, касающиеся пустых ячеек для таблиц 2 c верны для таблиц r c . Разреженная таблица с большим числом пустых ячеек в общем случае малопригодна для анализа, а информация, полученная из такой таблицы может касаться частных случаев исследования, ее сложно экстраполировать на популяцию.

Расчет χ 2 -теста Пирсона

Шаг 1. Для каждой ячейки такой таблицы рассчитываются оценки ожидаемых частот:

xˆij mi nj .

N

Шаг 2. Если более 20% ячеек содержат значения оценки ожидаемой частоты менее 5, то нужно пересмотреть данные, каким-то образом объединив похожие категории и повторить расчет оценок ожидаемых частот. Если объединить категории невозможно в силу их принципиальных различий, то тогда необходимо использовать точный тест Фишера-Фримана-Халтона.

Если в результате объединения категорий получилась таблица 2 2, для которой хотя бы одна ячейка содержит оценку ожидаемой частоты менее 5, то лучше перейти к точному тесту Фишера.

r

c

x

 

xˆ

 

2

Шаг 3. Рассчитывается статистика χ 2

 

ij

 

ij

 

. Эта статистика

 

 

xˆij

 

 

i 1

j 1

 

 

 

 

 

асимптотически подчиняется распределению χ 2 с r 1 c 1 степенями свободы.

119

Если

значение

рассчитанной

статистики

χ 2

превышает

χ 21 α , r 1 c 1

χ 2 χ 21 α , r 1 c 1 , где

χ 21 α , r 1 c 1

1 α

квантиль χ 2 -распределения с

r 1 c 1

степенями свободы, то в таблице есть сопряженные категории.

Шаг 4. Для каждой из ячеек таблицы рассчитывается стандартизированные

отклонения (Standardized deviates) как Devij

 

 

 

xij xˆij

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

nj

 

 

 

 

 

 

 

 

ˆ

1

i

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xij

N

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Стандартизированные остатки подчиняются закону нормального

распределения Dev ~ NID(0;1), поэтому

Devij

2,0

указывают на

значительное,

Devij 2,6 на очень значительное и

Devij 3,3

на сверхзначительное отклонение

(Agresti (2002)).

Если одна из мультиноминальных переменных упорядочена, то таблица r c называется одноупорядоченной таблицей. Для ее исследования используются непараметрический аналог ANOVA (тест Краскела-Уоллиса).

Если упорядочены обе мультиноминальные переменные, то таблица r c называется дважды упорядоченной таблицей. Для таких таблиц мы можем использовать тест линейно-линейной ассоциации (Linear-by-linear Association Test), тест Джонкира-Терпста (Jonckheere-Terpstra Test). Но поиск связи и ассоциаций в таких таблицах тем не менее надо начинать с проверки наличия некой сопряженности, связи, ассоциации, как описано в разделе 9. Переход к детальному изучению таких таблиц возможен только после выявления статистически значимых ассоциаций (коэффициенты сопряженности. Хи-квадрат критерий Пирсона, точный тест Фишера-Фримена-Халтона, тау Кенделла, тау Гудмена-Краскела). Не выявив наличия значимой ассоциации, вы можете потратить много времени на поиски того, чего может и не быть.

Пример представления и анализа данных в таблицах сопряженности

Для описания двух групп (например, группа 1 – это группа женского пола, группа 2 – группа мужского пола) была составлена таблица форм некоторого гипотетического заболевания (Табл. 14–2). Расчет ожидаемых частот приведен в таблице 14–3. Как видно, последние 4 формы заболевания имеют ожидаемые частоты менее 5. Используем точный тест Фишера-Фримана-Халтона 1.

Таблица 14–2. Данные примера

Формы заболевания

Группа 1

Группа 2

 

n=41(100%)

n=56 (100%)

Форма А

6

(14,6)

21 (37,5)

Форма Б

9

(22,0)

12 (21,4)

Форма B

14 (34,1)

10 (17,9)

Форма Г

3

(7,3)

3

(5,4)

Форма Д

1

(2,4)

5

(8,9)

Форма E

3

(7,3)

0

(0)

Форма Ж

5

(12,2)

5(8,9)

1 Все расчеты данного примера проводились с помощью статистического пакета R (R Foundation for Statistical Computing, Vienna, Austria; http://www.r-project.org/; Accessed August 1, 2011).

120

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение