Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных

.pdf
Скачиваний:
9
Добавлен:
24.03.2024
Размер:
15.15 Mб
Скачать

Статистический анализ медицинских данных ...

13.6. Проверка работоспособности

многофакторных моделей

Все модели многофакторного анализа необходимо проверять на работоспособность, т.е. оgенивать их устойчивость и эффек­ тивность на разных наборах данных.

Выборка, на которой происходило построение модели (напри­

мер, оgенка коэффиgиентов линейной дискриминантной функ­ gии в дискриминантном анализе), называется обучающей. Другая

выборка, на которой оgенивается работоспособность модели, на­ зывается экзаменачионной.

СУUJествуют несколько основных методов оgенки работоспо­

собности модели:

-если обучающая выборка велика, можно разделить ее на две,

соотносящиеся по числу объектов исследования, например как 7:3, затем построить 2 модели на каждой из выборок, а

затем модели сравнить;

-применение проgедуры "скользящего экзамена" ("jack-knife") -

временное поочередное удаление объектов исследования из

набора данных и пересчет параметров модели, а затем сопос­ тавление полученных моделей. Этот метод применяется при

существенных трудностях со сбором данных для экзаменаgи­ онной выборки. Такой способ может использоваться глав­ ным образом при наличии соответствующих программных

проgедур. К сожалению, в ППП STАТISТICA такие проgе­

дуры не предусмотрены;

-оgенка работоспособности модели на дополнительной, вновь набранной экзаменаgионной выборке;

-создание другой модели на другом наборе сходных данных и

анали=? идентичности моделей.

210

Глава 14. Анализ вида зависимости

одного признака от одного

или нескольких признаков

(регрессионный анализ)

Задача: исследовать вид зависимости одного признака (ко­ личественного или качественного) от одного или нескольких дру­

гих признаков (количественных или качественных) с челью про­

гнозирования значения одного признака по значению одного или

нескольких признаков.

Пример: изучить возможность прогнозирования возраста, в котором начнет развиваться некое наследственное заболевание

у пачиента, по активности фермента в плазме его крови и

возрасту, в котором это заболевание началось у родителя пачи­

ента.

Решение: регрессионный анализ - один из методов стати­ стического моделирования. Моделью в данном случае является

уравнение регрессии, параметры (коэффичиенты) которого и

рассчитываются в ходе регрессионного анализа.

Регрессионный анализ тесно связан с другими статистиче­

скими методами - методами коррелячионного и дисперсион­

ного анализа. В отличие от коррелячионного анализа, который изучает направление и силу статистической связи признаков, регрессионный анализ изучает Вид зависимости признаков, т.е.

параметры фующии зависимости одного признака (зависимо­ го1, объясняемого2, исхода3 , доли больных, ответивших на то

или иное вмешательство4 ) от одного или нескольких других при-

1Dependent (англ.).

'Explained (англ.).

'Outcoшe (англ.).

• Responce (англ.); в отечественной литературе иногда встречается термин "от­ клик".

211

Статистический анализ медицинских данных ...

знаков ( независимого1 , объясняющего2, прогностического3, фак­

тора\ ковариаты5 ).

В отличие от дисперсионного анализа, с помощью которого

исследуется зависимость количественного признака от одного или

нескольких качественных признаков, в регрессионном анализе

обычно исследуется зависимость (количественного или качест­ венного) признака от одного или нескольких количественных

признаков. Кроме того, ANOVА является одним из этапов про­

gедуры регрессионного анализа.

Замечание. Реzрессионный анализ (как и описываемый

в разделе 13.1 дискриминантный анализ, а также не описы­

.ваемые подробно в настоящем издании факторный анализ, кластерный анализ и т.д.) относится к методам матема­

тического моделирования и является достаточно с.ложнь~м

для проведения и интерпретации без соответствующей ма­

тематической подготовки. В связи с этим при описании пе­ речисленных методов мы останавливаемся .лишь на их воз­

можностях и не описываем подробно все опции и парамет­

ры, которые задействованы в процедурах, реализующих ука­ занные методы.

Классификация методов регрессионного анализа 1. По количеству независимых признаков:

- однофакторный, или простой (один независимый признак); - многофакторный (два независимых признака и более).

2. По типу математической зависимости:

- линейный (полиномиальная функgия первой степени; см.

раздел 14.1); нелинейный:

лоrистический (степенная функgия; см. раздел 14.2);

пробит-регрессия6;

экспоненgиальная регрессия7;

1Independent (англ.).

2Explanatory (англ.).

3Predictor (англ.).

Factor (англ.).

1 Covariate (англ.) - сопутствующая случайная величина; вспомогательная пере­

·

менная.

"ProЬit regression (англ.).

7 Exponential growth regression (англ.).

212

Глава 14. Анализ вида зависимости...

кусочно-линейная регрессия1 ;

-регрессия пропорчиональных рисков по Коксу (см. раздел

15.4).

Подчеркнем, что однофакторная регрессионная модель явля­

ется методом анализа двух признаков - независимого и зависи­

мого. Таким образом, однофакторный регрессионный анализ яв­

ляется методом двумерного анализа данных, как и коррелячион­

ный анализ.

Из методов нелинейной регрессии мы рассмотрим лишь мно­ жественный логистический регрессионный анализ как наиболее

актуальный метод для медичинских исследований.

Замечание. Классический регрессионный анализ не пре­ дусматривает использование количественных дискретных

и качественных признаков. Спечиальные приемы использо­ вания таких признаков в регрессионном. анализе описаны, на­

пример, в [33, 34].

Этапы построения регрессионной модели следующие:

1)анализ ассочиачий зависимого признака с каждым из незави­

симых путем оченки коррелячий и построения двумерных графиков;

2)отбор наиболее сильных ассочиачий;

3)построение регрессионного уравнения.

IJель регрессионного анализа - поиск таких комбиначий

независимых признаков, которые "лучше" (в определенном ста­

тистическом смысле - более высокого значения коэффичиента

детерминачии R2, меньших значений дисперсии ошибок и т.д.)

прогнозируют значение зависимого признака.

В ходе выполнения регрессионного анализа происходит про­

верка нулевой статистической гипотезы об отсутствии связи при­

знаков. Если нулевая гипотеза отклоняется, то следует принять

альтернативную гипотезу о существовании связи признаков.

14. 1 . Линейный регрессионный анализ

Задача: рассчитать значение (выполнить прогнозирование) одного количественного (объясняемого) признака по значениям одного или нескольких других количественных (объясняющих)

признаков.

1 Piecewise linear regression (анrл.).

213

Статистический анализ медицинских данных ...

Пример: необходимо найти правило прогнозирования дли­

тельности острой фазы инфекционного заболевания по уровню

антител в крови и температуре тела.

Решение: линейный регрессионный анализ. При этом про-

исходит построение уравнения следующего вида:

У=а+ЬХ (в случае простой линейной регрессии)

или

Y=a+b 1X1+bz-X2+ ...+b"X" (в случае множественной линейной

регрессии),

sде xl, х2, "., х" - независимые (объясняющие) признаки (прогно­

стические признаки), У - зависимый (объясняемый) признак,

а - константа, Ь1, Ь2••• , Ь" - коэффициенты регрессии (в случае

простого регрессионного анализа коэффициент Ь является тан­ генсом угла наклона регрессионной прямой к оси Х).

Условия примени.мости. метода:

-число объектов исследования должно быть в несколько раз

больше числа прогностических (объясняющих) признаков;

-все анализируемые признаки (и независимые, и зависимый)

должны быть количественными и нормально распределенны­

ми;

-зависимый признак У должен иметь нормальные распределе­

ния с равными дисперсиями для каждого значения независи­

мого признака (прогностического признака) Х;;

-независимые признаки Х; могут бьжть количественными

и/или качественными;

-взаимосвязи ме-я<Ду ка-я<Дым из независимых признаков Х; и

зависимым Признаком У линейны в интервале изученных зна­

чений;

-ка-я<Дое значение У независимо от другого для кюr<Дого значе­ ния Ка"Я<ДОГО Х/;

-в случае множественного регрессионного анализа требуется

отсутствие сильных линейных корреляций независимых при­

знаков, которые предполагается включать в регрессионный

анализ. Если какие-либо из независимых признаков сильно коррелированы, то необходимо включать в регрессионный

анализ тот из них, который имеет более сильную корреляцию

с зависимым признаком. При применении пошаговых про­

цедур коррелированность прогностических признаков не так критична, поскольку из пары признаков, имеющих сильную корреляцию, алгоритм включает только один признак;

214

Глава 14. Анализ вида зависимости...

- величина Е; - разнича между фактическим и прогнозируе­

мым значением зависимой переменной, есть случайная вели­

чина с нормальным распределением и нулевым математиче­

ским ожиданием;

-все значения Е; не коррелированы между собой и имеют оди­

наковую дисперсию s2

Замечание. Степень устойчибости оценок коэффици­ ентоб регрессии 6 елучае коррелиробанности ( мультикол­ линеарности) признакоб бо многом опреде.ляется алгорит­

мом бключения прогностических признакоб 6 урабнение. Если задано принудительное бключение бсех признакоб, то при

наличии мультиколлинеарности искажения будут более бы­

ражены, тогда как при использобании пошаzобых процедур

искажения будут менее быражены. Важно также учитыбать

бозможность оценки урабнений разных типоб, однако это

специальный бопрос, который здесь не обсуждается.

Мы не будем таюке обсуждать способы проверки соответст­ вия данных вышеперечисленным условиям. Заметим только, что

существуют как формальные (например, проверка гипотез), так

и неформальные (например, изучение графика остатков) спосо­

бы проверки этих ДОПУIIJений. Иногда в данные, нарушающие

эти предположения, могут быть внесены поправки (например, может быть выполнено преобразование данных) для достижения

соответствия условиям применимости метода. Если такие преоб­

разования сделаны, они должны быть описаны в публикачии.

Как простой, так и множественный линейный регрессион­

ный анализ в ППП STAТISТICA выполняется в модуле "Мншке­ ственная регрессия"

STАТISТICA:

~ Модуль "Множественная регрессия" ("Linear regres-

sion")

Нажав на кнопку "Переменные" (рис. 14.1), следует в диа­

логовом окне указать независимые и зависимый признаки. Мож­

но указать несколько зависимых признаков; в этом случае анализ

будет выполняться последовательно для каждого зависимого при­

знака (в режиме пакетной обработки1 ).

1 Batch processing (англ.).

215

Глава 14. Анализ вида зависимости...

признаков, еще не вошедших в уравнение. На каждом из всех

последующих шагов один прогностический признак либо вклю­

чается в уравнение как наиболее информативный из оставшегося

подмножества прогностических признаков, либо исключается нз уже вошедших в уравнение как неинформативный признак. Та­

ким образом, при прямой пошаговой про1Jедуре на каждом шаге

включается тот независимый признак, который в наибольшей

(по сравнению с другими не включенными в модель признака­ ми) степени (при уже включенных на более ранних шагах про­ чедуры признаках) влияет на зависимый признак.

При использовании обратного пошаговой прочедуры в урав­

нение регрессии вначале включаются (автоматически) принуди­

тельно все прогностические признаки, затем на первом шаге уда­

ляется тот прогностический признак, который имеет минималь­ ный частный коэффичиент коррелячии с зависимым признаком,

и т.д.

В пошаговых прочедурах обычно существуют следующие воз­

можности:

-установить пороговый уровень статистики F, начиная с кото­ рого признаки будут включаться в модель. Это позволяет вклю­

чать в модель только сильные прогностические (независимые)

признаки;

-указать максимальное число шагов прочедуры, на каждом

из которых в модель включается один признак. Таким обра­

зом, можно ограничить число прогностических признаков в

модели.

Замечание. При испо.льзо8ании поша208ых процедур

Включения прогностических признаков 8 уравнение регрессии обязательно просматри8айте порядок Включения и исключе­

ния прогностических признаков 8 уравнение. Да.лее, изменяй­

те значения "F-Включить" ( "F-eпter") и "F-иск.лючить"

( "F-reтove") таким образом, чтобы 8 конечном уравнении

Все Вошедшие прогностические признаки имели приемлемое

д.ля Вас значение р, например 8 интер8а.ле от 0,05 до О, 10. При испо.льзо8ании а.люритма "Прямая поша208ая процеду­ ра" ( "Forward stepwise") целесообразно начинать процесс

оценки регрессионною ура8нения со значений "F-Включить"

("F-eпter" )=2,0 и "F-исключить" ("F-remove" )= 1,9. Да.лее,

обязательно сра8ни8айте ура8нения, полученные с использо­ ванием прямой и обратной пошаго8ой процедуры.

217

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение