Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных

.pdf
Скачиваний:
9
Добавлен:
24.03.2024
Размер:
15.15 Mб
Скачать

Статистический анализ медицинских данных ...

- коэффиgиент детерминаgии r (в случае простого регресси­

онного анализа) является квадратом коэффиgиента корреля­

gии и показывает, какая часть дисперсии зависимого призна­

ка может быть объяснена дисперсией независимого призна­ ка. Он имеет значения от О (нет связи признаков) до 1 (де­

терминирующая связь признаков);

-коэффиgиент множественной детерминаgии R2 (в случае мно­

жественного регрессионного анализа) показывает, в какой

степени вариаgия зависимого признака определяется вариа­

gией независимых признаков, включенных в модель. Чем выше

R2, тем лучше регрессионная модель;

-весовые коэффиgиенты Ь (beta - их стандартизованный ва­

риант) являются коэффиgиентами уравнения регрессии. Они

показывают, насколько сильно среднее значение зависимого

признака У варьирует с каждой единиgей изменения незави­ симого признака Х. В случае простой линейной регрессии рег­

рессионный коэффиgиент (наклон регрессионной прямой)

является мерой связи ме")!<Ду анализируемыми признаками Х

и У. Нулевой наклон (горизонтальная линия на графике) оз­

начает отсутствие линейной связи ме>I<АУ признаками. По­

этому в ходе регрессионного анализа проверяются гипотезы

оравенстве нулю этих коэффиgиентов;

-если для какого-либо коэффиgиента Ь; р;<О,05, то соответст­

вующий признак Х; является значимым прогностическим для

признака У (в окне результатов выделен красным gветом).

-если р>О,05, то соответствующий признак Х; не является зна­

чимым прогностическим для признака У (в окне результатов записан синим gветом).

Замечание. Помните, что результаты регрессионного анализа применимы только к тому интер8а.лу значений дан­

нь~х, на которь~х они получены. Например, ее.ли ана.лизиро8а­

.лась Возможность проzнозиро8ания Возраста, 8 котором нач­

нется забо.ле8ание, по данным биохимических тестов д.ля .лич 20-40 .лет, и была получена статистически значимая рег­

рессионная моде.ль, то д.ля .лич старше 40 .лет испо.лыо8ать эту моде.ль некорреюпно.

Проверка работоспособности. модели.. Результатом рег­

рессионного анализа является создание статистической модели.

Как у всякой математической модели, у регрессионной модели

следует проверить работоспособность (подробнее см. раздел 13.6).

220

Глава 14. Анализ вида зависимости...

Представление результатов. Привести следуюIIJУЮ инфор­

маqию:

-число объектов исследования;

-описательную статистику (хотя бы Ми s) для зависимого и

каждого независимого признаков;

-желательно привести результаты предварительного парного

корреляqионного анализа каждого из независимых призна­

ков с зависимым признаком (с указанием значений р для каждого коэффиqиента корреляqии), а таюке независимых признаков между собой;

-уравнение регрессии. Если в записи уравнения используются значения нестандартизованных регрессионных коэффиqиен­

тов Ь, то необходимо включать в уравнение константу а. Если

же используются стандартизованные регрессионные коэффи­ qиенты beta, то константа а не включается;

-список безразмерных коэффиqиентов beta в порядке убьша­

ния их значений, поскольку этот список позволяет судить о порядке прогностических признаков (независимых призна­

ков) по силе их влияния на зависимый признак;

точные значения р и стандартные ошибки для каждого из

регрессионных коэффиqиентов;

-диаграмму рассеяния фактических и рассчитанных (по рег­

рессионной модели) значений зависимого признака и график регрессионной прямой (в случае простого регрессионного

анализа). Желательно таюке отразить линии, соответствую­ щие граниqам ДИ вокруг линии регрессии.

14.2. Логистическая регрессия как один из методов нелинейного регрессионного

анализа

Задача: исследовать связь бинарного признака с одним или несколькими количественными и/или качественными признака­

ми (прогностическими признаками, факторами).

Пример: необходимо прогнозировать возникновение инфарк­

та миокарда по данным о курении, возрасте, наличии артериаль­

ной гипертонии.

Решение: логистический регрессионный анализ. Логистический регрессионный анализ позволяет строить ста­

тистическую модель для прогнозирования вероятности наступле-

221

Статистический анализ медицинских данных ...

ния события по имеющимся данным (например, факторам рис­

ка). При этом имеющиеся данные по независимым признакам (в нашем примере - курение, возраст, наличие артериальной

гипертонии) называются независимыми (объясняющими) при­

знаками. Зависимым признаком У, в отличие от линейной мно­

жественной регрессии, является не само значение зависимого

(объясняемого) признака Р, а его логит-преобразование:

logit ( Р) = ln ( Р/ (1- Р)).

Логит-преобразование позволяет вместо значений Р, опреде­ ленных на интервале [О; 1] перейти к интервалу [-оо; +оо].

Вследствие этого возрастает чувствительность данной функции к

изменению комбинаций, сочетаний разнообразных прогностиче-

ских признаков.

Результатом лоrистического регрессионного анализа является

расчет оценок регрессионных коэффициентов ЬО' Ь1, Ь2, "., bi уравнения У= Ь0 + Ь1 х1 + Ь2 х2 + ." + ьi xi,

где Х1••• Х; - независимые признаки (факторы риска),

У= ln (Р/ (1-Р) ).

'·'

Условия применимости метода:

-зависимый признак - качественный бинарный (имеет толь­

ко два возможных значения: 1 (например, наличие заболева­

ния) и О (отсутствие заболевания);

-")независимые (объясняющие) признаки - любые (количест­

венные и/или качественные);

-независимые (объясняющие) признаки должны быть незави­

симы таюке друг от друга, т.е. не должны быть коррелирова­

ны или ассоциированы (рекомендуется предварительно про­

вести соответствующий анализ).

Замечание. В некоторых друшх пакепшх статистиче­ ских программ предусмотрена возможность использования за­

висимых переменных с числом значений более двух, а таюке с

большим набором алюритмов оченки уравнения регрессии.

STАТISТICA:

~ Модуль "Нелинейное оgенивание"

( "Nonlinear estimation")

~ Раздел "Логит-регрессия" 1

("Logistic regression") (рис. 14.4)

1 Имеется в виду логистическая регрессия, или логистический регрессионный анализ.

222

Глава 14. Анализ вида зависимости".

Интерпретаqия результатов. Полученные результаты мож­

но интерпретировать следующим образом.

-Значения коэффиgиентов Ь; представляют собой натуральные

логарифмы отношения шансов (ОШ) для каждого из соот­ ветствующих признаков Х;. Для i-го признака ОШ может быть

вычислено по формуле: ОШ;=еы, где е - математическая кон­

станта, приблизительно равная 2,72.

- Значение У в уравнении регрессии - это натуральный лога­

рифм ОШ для изучаемого события. Вероятность этого собы­ тия для каждого конкретного объекта исследования может быть вычислена по формуле: Р=еУ / (l+eY).

- Если для какого-либо из коэффиgиентов р>О,05, то нулевая

гипотеза о том, что OШi=l, т.е. исследуемый фактор (объяс­

няющий признак) не ассоgиирован с изучаемым событием,

не отклоняется.

-Если р<О,05 для какого-либо из коэффиgиентов, то нулевая

гипотеза отклоняется, и принимается альтернативная гипо­

теза о том, что исследуемый фактор (объясняющий признак)

ассоgиирован с изучаемым событием (бинарным признаком). Остановимся несколько подробнее на интерпретаgии ОШ в логистической регрессионной модели. Эта интерпретаgия тако­ ва: при увеличении на единиgу значения i-го признака шанс воз­ никновения изучаемого события увеличивается в число раз, рав­ ное величине ОШ. Для бинарного независимого признака ОШ -

это отношение шанса того, что событие произойдет в одной группе, к шансу того, что оно произойдет в другой группе.

Пример: под наблюдением находились две группы участников исследования: курильщики и некурящие. Подсчитывалось число случаев возникновения инфаркта миокарда в обеих группах. Оба признака - бинарные, данные могут быть представлены в четы­ рехпольной таблиgе (рис. 14.9):

Исследуемые rруппы

Инфаркт возник

Инфаркта не было

Курнльщнкн

140

220

Некурящие

50

330

Рис. 14.9. Таблица сопряженности (пример).

Для курильщиков шансы развития инфаркта миокарда со­

ставляют 140/220=0,636, а для некурящих - 50/330=0,152;.

225

Статистический анализ медицинских данных ...

ОШ=О,636/0,152=4,2, т.е. шансы развития инфаркта миокарда

у курильщиков в 4,2 раза больше, чем у некурящих.

Если бы ОШ равнялось 1, то это означало бы, что обе группы

имеют одинаковые шансы на возникновение инфаркта миокар­ да. Чем больше ОШ, тем больше вероятность возникновения со­

бытия, которое случится в группе, описанной в числителе ОШ.

Представление результатов. Привести следующую инфор­

мацию:

-описательную статистику для каждого из анализируемых при-

знаков;

-число объектов исследования;

-точное значение р для модели в целом;

-регрессионные коэффициенты Ь, для независимых признаков

Х, и точные значения р для каждого из них.

Проверка работоспособности модели. Результатом рег­

рессионного анализа является создание статистической модели.

Как у всякой математической модели, у регрессионной модели следует проверить работоспособность (подробнее см. раздел 13.6).

226

Глава 15. Некоторые

проблемы и частные

общие задачи

статистического

анализа

15. 1. Проблема сравнений

множественных

При

проведении

анализа

данных

часто

возникает

так

назы­

ваемая

проблема

множественных

сравнений

(ПМС),

заключаю­

щаяся

в

следующем:

чем

больше

статистических

гипотез прове­

ряется

на

одних

и

тех

же

данных,

тем

более

вероятна

ошибка

первого рода -

ми, в то время

заключение о

наличии различий между группа­

как на самом

деле верна нулевая гипотеза об

отсутствии

различий.

Так,

если

за

уровень

значимости

принято

значение

р

=0,05,

то 5 из 100 вычисленных значений р в

 

0

 

(по

теории вероятности) окажется меньше

случайности

силу 0,05

(хотя на

самом деле

верна нулевая гипотеза

личий).

На практике

принято считать, что

об отсутствии раз­

учет ПМС следует

начинать

в

тех

случаях,

когда

число

рассчитываемых

значений

р

соответственно

публикуемых

в

статьях

и

диссертаgиях)

пре­

вышает

10.

ПМС возникает в следующих ситуаgиях.

1. При вторичном (post hoc) анализе

данных.

Как

ра­

нее

упоминалось,

статистический

анализ

данных

можно

разде­

лить

на

два

типа:

первичный

и

вторичный.

Первичный

анализ

данных

проводится для

проверки

предположений

исследователя,

которые

возникли

у

него

до

начала

сбора

данных.

Вторичный

анализ

проводится для

поиска

неизвестных

заранее

закономер­

ностей

в

данных.

Практически

всегда у

исследователя

возникает

соблазн

проанализировать с

большим

трудом

полученные

данные

всеми

возможными

способами.

Однако

необходимо

понимать,

227

Статистический анализ медицинских данных ...

что такой анализ обычно носит исследовательский характер и не

отвечает на вопросы (не проверяет гипотезы) исследователя, а

ставит их (выдвигает гипотезы). Интерпретаgия результатов вто­ ричного анализа данных должна быть очень осторожной и преж­ де всего опираться на биологическое правдоподобие найденных

закономерностей. "Если рыболов вылавливает ботинок, ботинок

нужно выбросить, а не объявлять, что рыболов ловил именно

ботинки". Вторичный анализ данных обычно проводится путем

анализа всех возможных взаимосвязей в поисках статистически значимых закономерностей. Его результаты не могут считаться

вполне статистически значимыми (даже если получены статисти­

чески значимые закономерности), так как структура исследова­

ния не предусматривала исследование этих закономерностей, и

следовательно, выборки могут быть неадекватными ( смещенны­

ми). Например, выборки могут быть исходно не сбалансированы

по некоторым факторам при исследовании вмешательства или могут быть слишком малочисленными для получения надежных статистических выводов. Наиболее часто такой вторичный анализ

данных бывает связан с анализом большого числа клинических

подгрупп.

2.При множественных парных сравнениях групп

иподгрупп (по демографическим и клиническим характери­ стикам, исходам, временнЬ1м точкам и т.д.). Такой анализ обос­

нован, если он запланирован в начале исследования, до начала

сбора данных, т.е. является первичным. В этом случае подгруппы

скорее всего будут достаточны по объему, а их выделение будет иметь биологическое обоснование. В общем случае при планиро­ вании исследования, предусматривающего большое количество

сравнений групп и подгрупп, следует использовать спеgиальные

программы оgенки мощности (чувствительности) статистических

тестов, а также производить оgенку необходимого объема выбо­ рок для проверки конкретных гипотез. Если же анализ в под­ группах носит поисковый характер, его результаты должны быть описаны лишь как предварительные. В этой ситуаgии необходи­

мо пользоваться проgедурами группового сравнения, например

ANOVА, а в дальнейшем спеgиальными проgедурами МНО)I' 3-

венных парных сравнений (см. раздел 8.4.1.3). Наиболее час'<uЙ

ошибкой при множественных парных сравнениях является мно­ гократное применение t-критерия Стьюдента без необходимой в

этих случаях переустановки критического уровня значимости

228

Глава 15. Некоторые общие проблемы".

(обычно принимаемого равным 0,05). Нередко таюке вычисля­ ется множество (иногда сотни) коэффичиентов коррелячии,

выполняется повторное тестирование на значимость различий по

ходу пополнения набора сравниваемых групп.

3. При установлении эквивалентности групп в начале

нерандомизированноrо исследования вмешательства. В этом

случае бывает необходимо обнаружить дисбаланс между группа­

ми, который может возникнуть за счет систематической ошибки

при формировании групп. В рандомизированных же исследова­

ниях, если рандомизачия проведена успешно, неэквивалентность

групп может быть только случайной, и сравнение групп не требу­

ется, хотя описательную статистику групп по основным призна­

кам на начальном этапе исследования необходимо приводить в

отчете.

4.При промежуточном анализе данных, полученных

виспытаниях тех или иных вмешательств. Та1<ой анализ часто требуется для того, чтобы не подвергать участников иссле­ дования дальнейшему необоснованному риску. Этот анализ свя­

зан с изначальным установлением "критериев остановки" иссле­

дования. Если промежуточный анализ показывает, что вмеша­ тельство очень эффективно или, наоборот, очевидно неэффектив­ но либо вредно, исследователи могут прервать исследование. Ре­

зультаты предварительного анализа рекомендуется использовать

только для принятия решения о завершении/продолжении ис­

следования, но не для информирования участников исследования

или широкого опубликования, так как в этом случае дальнейший ход исследования может быть нарушен (смещен). Однако про­

межуточный анализ увеличивает число проводимых тестов и яв­

ляется таким образом источником ПМС.

Для того чтобы определить максимально допустимое число

сравнений в данном исследовании, можно воспользоваться сле­

дующей формулой [26]:

k(k-1)/2,

где k - число групп для сравнения.

СУUJествуют следующие подходы к преодолению ПМС:

-установление более жесткого, чем 0,05, уровня значимости,

например 0,01; 0,005; 0,001 и т.д.;

- применение поправки Бонферрони - перерасчет уровня зна­ чимости р для множественных парных сравнений по форму­

ле р/п, где Р" - исходно заданный уровень статистической

229

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение