Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

Ремарка: Количество параметров и число предикторов модели не одинаково. Если мультиноминальный предиктор представлен индикаторными переменными, то каждая

индикаторная переменная имеет свой параметр β , также параметром является β0 .

Основные характеристики:

 

ei yi yˆi

– значение остатка i -го наблюдения.

 

 

N

 

 

 

 

 

 

ei 0 – среднее ошибки равно нулю.

e

 

 

i 1

 

 

 

 

 

 

 

N q

1

N

 

MSE RSS

ei2

– вариация ошибки, среднеквадратичная ошибка

 

 

 

 

 

N q

 

 

 

 

 

 

i 1

 

(mean squared error). Часто используется термин RMSE MSE (root mean squared error).

zi

 

ei

 

– стандартизированный остаток (standard residual), или

 

 

 

MSE

 

 

 

 

полустьюдентизированный остаток ( semistudentized residuals.) Если опираться на предположения регрессии, можно ожидать, что zi взято из нормального

распределения NID 0,1 .

ri

 

ei

 

 

 

– стьюдентизированный остаток (studentized residuals), и

 

 

 

 

 

MSE

1

hi

 

 

 

приближенно следует распределению Стьюдента с N q степенями свободы.

Считается, что остатки распределены нормально. Свойства нормального распределения (см. раздел 6) позволяют нормализовать (стандартизировать) остатки и делать заключения об их величине. Напомним, что 95% значений нормально распределенной величины попадают в интервал 2σ , 99,7% значений попадают в интервал 3σ . Стьюдентизированный остаток подчиняется распределению Стьюдента с N q степенями свободы. Следовательно, значение

более 3 для стандартизированного остатка i -го наблюдения для можно рассматривать как выброс в регрессии. Некоторые источники указывают, что нужно обращать внимание и на значения больше 2, особенно для малых выборок.

Для более внимательного изучения поведения i -го наблюдения предложено следующее: удалить это наблюдение из набора, повторить все расчеты и посмотреть, как изменились все параметры модели. Этот подход называется анализ удаленных остатков (deleted residual, jackknife residual).

После удаления i -го наблюдения, строят модель (определяют параметры модели) без этого наблюдения, и рассчитывают предсказанное значение yˆ i на

основе полученной модели, после чего рассчитывают остаток di yi yˆ i .

Также рассчитывается стандартизированный удаленный остаток (standard deleted residual); стьюдентизированный удаленный остаток (studentized deleted residuals, R-Student residuals). Аналогично, значения более 2–3 рассматривают как выбросы регрессии.

Кроме стандартизированных удаленных остатков рассчитывается такая статистика как DFFITS – мера того, как наблюдение влияет на регрессионную

модель. Статистика стандартизирована: DFFITS

 

 

yˆ i yˆ

i

 

, где yˆ

 

– предсказанное

i

 

 

 

 

i

 

MSE i hi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

151

значение y для i -го наблюдения по исследуемой модели, yˆ i – предсказанное значение y по модели с удаленным i -м наблюдением.

Значения более 2 Nq рассматриваются как сильно влияющие.

Следующая статистика DFBETASk ,i – мера того как i -е наблюдение влияет на определенный k -ый параметр регрессии, рассчитывается для всех параметров.

Статистика стандартизирована. Значения более 2N рассматриваются как сильно

влияющие. Если таких точек много (более 10–15% от всех данных), то модель необходимо менять, возможно стратифицировать или учитывать непостоянство дисперсии (гетероскедастичность). Также такая ситуация может свидетельствовать о том, что имеется еще какой-то предиктор или конфаундер, который не учтен в вашей модели.

Расстояние Кука (Cook’s Distance) – мера общего влияния наблюдения как на коэффициенты регрессии, так и на значения регрессии. Значения расстояния Кука

более чем N4 рассматриваются как сильно влияющие на модель регрессии.

COVRATIO – мера влияния каждого наблюдения на вариацию и стандартную ошибку коэффициентов регрессии и их ковариацию. Значения COVRATIO 1 3Nq

рассматриваются как сильно влияющие.

Фактор падения вариации, VIF (Variance Inflation Factor) – мера того, насколько один предиктор коррелирует с другими предикторами модели. Является диагностикой мультиколлинеарности предикторов и рассчитывается следующим образом: строится линейная модель зависимости j -ого предиктора от всех других,

используемых в модели, и рассчитывается коэффициент детерминации полученной

модели R j . Фактор падения вариации

j -ого предиктора равен

VIFj

1

.

 

1 R2

 

 

 

j

Предполагается, что если бы этот предиктор не коррелировал с другими, значение стандартной ошибки коэффициента этого предиктора была бы в VIF раз меньше.

Значения VIF более 10 для предиктора вызывает большое увеличение стандартной ошибки из-за корреляции этого предиктора с другими.

В любом статистическом пакете эти характеристики рассчитываются одинаково, однако предел, выше которого наблюдение является влияющим (выбросом) может определяться по-разному.

16.9.Преобразование переменных

Графическая диагностика линейности, нормальности и гомоскедастичности не дает статистически подтвержденного ответа и в этом смысле нет рекомендованных тестов. Преобразование переменных часто усложняет интерпретацию результатов. Естественным критерием полезности преобразования может являться существенные различия в результатах анализа до и после преобразования данных. Если различия несущественны, то лучше воздержаться от таких преобразований. Нет никакого смысла в работе с преобразованными данными, если это не добавляет ценности анализу.

Типичные преобразования:

152

Смещение

 

 

 

 

Значения количественной переменной x

смещают на постоянную величину

x C . Такое

преобразование не изменяет в модели никаких параметров, кроме

параметра β0 . Служит для лучшей интерпретации результатов. Например,

в модели

используется

предиктор – возраст смены

зубов. Традиционно

в

модели

E y | x β0 β1x , β0 равно оценке среднего зависимой переменной при

x 0. Но в

возрасте 0 лет зубы не меняются. Более логичным будет использование переменной xnew x 6, тогда интерпретация параметра β0 – оценка среднего зависимой

переменной в возрасте 6 лет.

Смещение не влияет ни на изменение остаточной ошибки, на общую значимость модели, ни на что, кроме интерпретации параметра β0 .

Логарифмическое преобразование

Логарифмическое (logx или lnx ): это преобразование может быть

использовано, когда первоначальные данные взяты из логнормального распределения, или когда распределение скошено вправо.

Логарифмическая основа (например, любой натуральный или десятичный логарифм) должна быть одна и та же в процессе анализа. Если некоторые из первоначальных значений являются нулем, то принято добавлять малое ненулевое значение для того, что бы сделать значение данных ненулевым, поскольку логарифма нуля не существует. Размер этой добавки зависит от величины ненулевых данных и последствий потенциального неправильного вывода из получившихся преобразованных данных. Как рабочая точка может быть выбрано значение одной десятой от самого наименьшего ненулевого значения в данных. Не имеет значения, используется ли натуральное (ln) или десятичное (log) основание для преобразования, поскольку оба преобразования соотносятся как lnx 2,303 logx , главное – использование одного и того же основания.

Интерпретация логарифмического преобразования

Сначала рассмотрим, что произойдет, если предиктор подвергся

преобразованию xtransform ln x . В этом случае

коэффициент регрессии

преобразованного предиктора, умноженный на ln 1,01

будет интерпретироваться

как изменения в средней величине переменной y на 1% возрастания значений предиктора. Если коэффициент умножить на ln 1,05 или на ln 1,1 , то он покажет изменения в y на каждые 5% или 10% возрастания значений предиктора.

Аналогично, если значения y были логарифмированы ytransform ln y , то

величина 100eβˆ 1 интерпретируется процентное возрастание средней величины y при изменении предиктора на единицу.

Наконец, если преобразованы и предиктор x и зависимая переменная y , то

величина100eβˆ ln1,01 1 – на сколько процентов изменится средняя величина y при том, что предиктор изменился на 1 %.

Квадратный корень

Квадратный корень(х). Это преобразование может использоваться, когда имеем дело с малыми целыми числами такими, как возникновение редких событий. Предположение, лежащее в основе этого, гласит о том, исходные данные взяты из распределения Пуассона, в котором среднее и вариация данных равны. Нужно

153

отметить, что, когда в исходных данных имеются очень малые значения и нули, используется преобразование x 1 .

Преобразование Бокса-Кокса

Это сложное мощное преобразование, которое использует первоначальные данные и возводит их в некоторую степень λ .

xλ 1

, λ 0

 

 

 

 

 

 

xtransform λ

 

.

ln x ,

λ 0

 

 

 

 

Логарифмическое преобразование является особым случаем преобразования Бокса-Кокса. Существуют специальные модули в некоторых статистических пакетах для определения λ , чтобы преобразованные данные имели наилучшую модель структуры вариации, ошибка была распределена нормально и вариация была постоянной, насколько это возможно по всем значениям. Для нахождения λ используется метод максимального правдоподобия, чтобы остаточная ошибка от соответствующей теоретической модели была минимизирована. Это преобразование в зависимости от значения λ может аппроксимироваться другими более простыми преобразованиями (табл.16–4). Поэтому на практике точное значение λ округляется к удобному значению для облегчения в интерпретации (например, λ 1,1 округляется к –1, так как имеется интерпретация обратно

пропорционального преобразования). Одним из недостатков преобразования БоксаКокса является трудность в медико-биологической интерпретации преобразованных данных. Однако есть и преимущество: после выполнения преобразования статистические пакеты выдают значение λ . По этому значению можно оценить, какое преобразование, кроме преобразования Бокса-Кокса, может дать похожий результат.

Таблица 16–4. Соответствие значений параметра λ различным преобразованиям

λ

Преобразование

 

xtransform ftrasform x

–2

x

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

transform

 

 

 

 

 

 

 

 

 

 

 

 

x2

 

 

 

 

–1

x

 

 

1

 

 

 

 

 

 

 

 

 

 

transform

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

–0,5

x

 

 

1

 

 

 

 

 

 

 

 

 

transform

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

xtransform

ln x

0,5

 

 

 

 

 

 

 

 

 

 

 

xtransform

 

 

 

x

 

 

 

 

1

Тождественно xtransform x

 

 

 

 

 

 

 

 

 

 

2

xtransform

x

2

 

 

 

 

 

 

 

 

 

 

В любом случае, преобразования – это сложный момент исследования и лучше получить консультации специалистов.

Квантификация количественной переменной

Очень часто количественная переменная является биологичческой характеристикой организма пациента и клиницистам неинтересен вывод о том, что

154

изменение данной характеристики (предиктора) на единицу измерения вызывает изменение на β единиц зависимой переменной, практикующим врачам интересна

конечная рекомендация, например, в возрасте после 60 лет зависимая переменная критически снижается. В этом случае количественную переменную преобразуют в порядковую или фактор, разбивая на некоторые интервалы.

Каким образом можно провести разбиение?

Самый простой способ использовать квантили, например, разбить на 2 уровня

– ниже и выше медианы, в этом случае получаем бинарную переменную (фактор) вместо количественной переменной. Также можно разбить на три группы (0-33 перцентиль, 34-67 перцентиль, 68-100 перцентиль) и т.п.

Также если по интересующей количественной переменной существуют некоторые биологические (медицинские) нормы, можно использовать их: норма/не норма; ниже нормы/норма/выше нормы. Однако часто в исследованиях такая переменная отличается от нормы для всех наблюдений.

Один из примеров квантификации количественной переменной приведен в п.17.9.4.

16.10. Примеры построения линейной регрессии

В данном исследовании была проведена оценка параметров костного метаболизма (остеокальцина и β-CTX) у излеченных пациентов (детей), которые находились на лечении по поводу злокачественного образования, и здоровых сверстников. Анализ также был проведен по объему лечения: контрольная группа и группы получивших высокодозную и низкодозную химиотерапию (химиотерапевтическое воздействие).

Цель – определить, как влияет химиотерапия и ее объем на параметры костного метаболизма, а также оценить пределы нормы для здоровых детей различного возраста и отклонения от нормы для детей, которые поверглись химиотерапевтическому лечению. Известно, что период активного костеобразования у детей продолжается приблизительно до 15 лет.

В контексте данного исследования мы могли говорить не о “воздействии”, а о лечении, но мы изучаем отрицательные моменты, связанные с химиотерапией. Для аналитика “воздействие” – это любое влияние на организм (положительное или отрицательное), однако термин “лечение” ассоциируется с положительным влиянием на организм. Поэтому употребление термина “воздействие” (expose) будет более точным.

Исследуемых, которые подверглись воздействию некоторого фактора, обычно называют исследуемой группой, исследуемых, не подвергавшихся воздействию – контрольной группой.

Всего в исследовании 105 наблюдений (Таблица 16-5).

Таблица 16-5. Распределение наблюдений по полу и группам

 

Группы

male

female

1

- control

33

23

2

- LowDose

17

10

3

- HighDose

14

8

Всего

64

41

Исходные данные приведены в приложении R-10. Также приведены R скрипты статистических расчетов в статистическом пакете R.

155

Модель для оценки уровня β-CTX

Рассмотрим анализ β-CTX .

Шаг 1.

Для того, что выбрать направление анализа данных, рассмотрим, как распределен β-CTX у контрольной группы. Для этого выполним тест на соответствие этих данных закону нормального распределения. Критерии Шапиро-Уилка, ШапироФрансиа не подтвердили отклонений от нормального распределения β-CTX у контрольной группы (р=0,15 и р= 0,24 соответственно).

Рис. 16-9. Зависимость BCTX от пола и возраста, в котором проведены измерения

Рис. 16-10. Зависимость BCTX от объема воздействия и возраста, в котором проведены измерения

Поскольку возраст и пол, особенно у детей, являются конфаундерами, рассмотрим поведение β-CTX, (зависимая переменная BCTX) от возраста (предиктор age.at.measure) и пола (предиктор Sex, значения male/female); возраста и наличия воздействия (предиктор Expose, значения control/expose); возраста и объема

156

воздействия (предиктор Group, значения control/LowDose/HighDose). Графики представлены на рис. 16-9 и рис.16-10 соответственно.

Поведение BCTX меняется с возрастом, зависимость нелинейна, есть также различия между девочками и мальчиками.

Поскольку зависимость от возраста нелинейна, разделим наблюдения на 4 возрастные подгруппы (Age.Group): до 10 лет, 10-14, 15-18, 18+.

Количество наблюдений (Таблица 16-6) по полу в возрастных подгруппах однородно (Хи-квадрат критерий, p = 0,89). Однако в старшей возрастной подгруппе средний возраст девочек значимо ниже.

Таблица 16-6. Половозрастные подгруппы исследования

Age.Group

female

male

 

 

 

 

 

 

Кол-во

Средний

Кол-во

Средний

 

 

возраст

 

возраст

 

 

 

 

 

до 10

12

7,5

16

7,3

 

 

 

 

 

10-14

10

12,5

16

12,8

 

 

 

 

 

15-18

10

16,3

14

16,4

 

 

 

 

 

18+

9

20,1

18

22,4

 

 

 

 

 

Количество наблюдений по наличию воздействия в возрастных подгруппах (Таблица 16-7) также однородно (Хи-квадрат критерий, p = 0,86).

Таблица 16-7. Группы с воздействием и без него по возрастным подгруппам

Age.Group

control

expose

 

 

 

до 10

16

12

 

 

 

10-14

14

12

 

 

 

15-18

11

13

 

 

 

18+

15

12

 

 

 

Комментарии к Шагу 1.

2. Мы проверили ВСТХ на “нормальность” в первую очередь в контрольной группе, а не во всей выборке по следующим соображениям: воздействие (заболевание, лечение и пр.) может изменять закон распределения исследуемой переменной. Если в норме некоторый показатель ведет себя “нормально”, то мы можем принять это во внимание в дальнейшем анализе.

Тем не менее, рекомендуется проверить на “нормальность” и группу(ы) с воздействием для того, чтобы выбрать направление анализа таких данных, определить критерии, по которым могут сравниваться группы.

Тестировать на “нормальность” смешанные данные (заболевших и здоровых наблюдаемых) можно, но результаты могут привести в недоумение неопытного исследователя, поскольку изучаемый параметр в группе контроля и группа пациентов, страдающих определенным заболеванием, может иметь различные законы распределения. Смешение таких данных на гистограмме или графике плотности вероятности может дать неинформативную или искаженную картину.

Мы проверили данные двумя тестами, поскольку существует множество обсуждений о том, когда и при каких обстоятельствах использовать критерии согласия. Обычно тест Шапиро-Уилка используется для групп размером до 50 наблюдений, хотя существуют его версии для бóльшего числа наблюдений.

157

Небольшие отклонения от закона нормального распределения могут и не приниматься во внимание при построении моделей, но знать, как распределены ваши данные – обязательно.

3. ВСТХ имеет нелинейную зависимость от возраста, поэтому мы разделили исследуемых на подгруппы и проверили, достаточно ли сбалансированы группы. Если бы был дисбаланс в количестве наблюдений, то нам бы пришлось каким-то образом менять разделение на возрастные подгруппы. Проще всего при наличии нелинейной зависимости попробовать разделить наблюдения в соответствии с квартилями на 4 группы и группы будут содержать приблизительно одинаковое количество наблюдений.

В нашем исследовании мы ориентировались на значения квартилей возраста исследуемых: Q25=9,6; Q50=14,8; Q75=18,2. Это означает, что все наблюдения поделены на 4 приблизительно равные части. Мы также проверили, что полученные подгруппы приблизительно сбалансированы (однородны) по полу и получаемому воздействию. В литературе возрастные подгруппы часто называют стратами.

Деление на подгруппы по квантилям возраста – не единственное решение при нелинейной зависимости переменной от предиктора. Также могут использоваться иные рассуждения, например – допубертатный период, пубертат, постпубертатный период; возможно деление на пятилетние периоды и т.п. Также можно делить на возрастные подгруппы на основании изучения графических зависимостей. Также используют более сложные математические методы, например сплайны (выделяются участки с равномерным возрастанием/убыванием функциональной зависимости) и др.

4. Проверка на однородность подгрупп необходима, поскольку к примеру в исследовании будут в одной подгруппе находится девочки только до 10 лет, а в другой только мальчики только после 10 лет, возможно возникнет смещение (уклон), которое мы не сможем рассчитать и скорректировать из-за недостаточности или отсутствия данных. Смещение среднего возраста в подгруппе +18 может стать причиной смещения оценок параметров модели. Но, исходя из природы данных (известно из литературы, что маркеры костного метаболизма после 25 и до 50 лет имеют постоянный уровень у человека независимо от пола), мы пренебрегли возрастным различием в последней возрастной подгруппе.

Шаг 2.

Поскольку мы предполагаем, что уровень ВСТХ ассоциирован с некоторыми группами (воздействия, возраста, пола), то можно воспользоваться многофакторным дисперсионным анализом или линейной регрессионной моделью.

Выберем следующую стратегию подгонки модели: сначала построим модель с основными эффектами предикторов (Group.Age, Sex, Group), убедимся, что они существуют. Если есть возможность, снизим размерность модели (объединение уровней предикторов без потери качества подгонки модели), потом построим модель со взаимодействием всех предикторов. Следующий этап – сокращение размерности модели путем исключения незначимых взаимодействий. Затем проверим предположения, лежащие в основе модели.

Предварительная модель LM.0 включает в себя предикторы Age.Group (4 возрастных подгруппы) , Group (3 группы), Sex (2 группы).

Анализ квадратов отклонений (таблица ANOVA) предварительной модели LM.0 – модели основных эффектов приведен в Таблице 16-8. Мы убедились, что основные эффекты, связанные с возрастом, полом и группой исследования значимы.

158

Таблица 16-8. Таблица ANOVA предварительной модели LM.0

Предиктор

Сумма

Степени

Значение

p

 

квадратов

свободы

F-критерия

(Pr(>F))

 

(Sum Sq)

(Df)

 

 

 

 

 

 

 

Age,Group

23,48

3

32,15

<0,0001

Group

3,38

2

6,74

0,0019

Sex

3,40

1

13,97

0,0003

Residuals

23,85

98

 

 

Оценка параметров модели приведена в Таблице 16-9.

Исходя из оценок параметров модели LM.0 можно предположить, что

1.Подгруппы до 10 и 10-14 неразличимы (в модели группа до 10 принята за базовую, незначимость параметра модели Age.Group[10-14] означает, что подгруппа 10-14 неразличима с базовой подгруппой до 10).

2.Эффект от высокодозного воздействия (Group[HighDose] ) сравним с эффектом от низкодозного воздействия (Group[LowDose]) и отличается от контрольной группы (p<0,01).

Таблица 16-9. Оценка параметров предварительной модели LM.0 для ВСТХ

Переменная

Estimate

Std. Error

t-value

p

 

 

 

 

 

(Intercept)

1,67295

0,11651

14,359

<0,0001

 

 

 

 

 

Age,Group[10-14]

0,10308

0,13839

0,745

0,4582

Age,Group[15-18]

-0,43715

0,13826

-3,162

0,0021

Age,Group[18+]

-1,08798

0,13382

-8,130

<0,0001

Group[HighDose]

-0,35665

0,12572

-2,837

0,0055

Group[LowDose]

-0,35532

0,11728

-3,030

0,0031

Sex[male]

0,37043

0,09909

3,738

0,0003

Комментарий к Шагу 2.

1.Выбранная стратегия подгонки модели не является единственной. Возможно построение модели с основными эффектами, ее исследование на значимость независимых предикторов, и после – проверка значимости взаимодействий предикторов в модели. Возможно построение модели со всеми взаимодействиями, а после ее уменьшение за счет незначимых переменных. Возможен выбор наилучшего подмножества из всех возможных комбинаций предикторов и их взаимодействий.

2.Эффект воздействия некоторого бинарного/мультиноминального предиктора – это значимый сдвиг среднего значения исследуемой (зависимой) переменной при изменении уровня (значения) данного предиктора. Размер эффекта определяется оценкой соответствующего коэффициента.

3.Значимость каждого из предикторов модели может определяться критерием отношения правдоподобия, F-критерием, критерием Вальда и др. Удобнее всего оценивать значимость предикторов модели с помощью таблиц ANOVA

вклада в снижение вариации модели каждого предиктора.

Шаг 3.

Проверим линейную гипотезу о равенстве эффектов высокой и низкой дозы воздействия. Тест показал, что эффекты неразличимы ( p= 0,9928). Мы имеем право

159

объединить группы с высокой и низкой дозой воздействия, перейти к исследуемой и контрольной группам.

Также из Таблицы 16-9 значимость переменной Age.Group[10-14] p=0,46, следовательно уровни предиктора Age.Group до 10 и 10-14 можно объединить.

Заменим предиктор Group на предиктор Expose (expose/control), который уже есть в наборе данных, а также объединим группу до 10 лет и 10-14 в одну группу. Введем в данных новый столбец в данных Age.Group.BCTX.

Новая предварительная модель LM.1 (Таблица 16-10) незначимо отличается от модели LM.0 (p=0,74; F-критерий).

Таблица 16-10. Таблица ANOVA модели LM.1

Предиктор

Сумма

Степени

Значение

p

 

квадратов

свободы

F-критерия

(Pr(>F))

 

(Sum Sq)

(Df)

 

 

 

 

 

 

 

Age,Group,BCTX

23,43

2

48,826

<0,0001

Expose

3,25

1

13,546

0,0004

Sex

3,45

1

14,372

0,0003

Residuals

24,00

100

 

 

Комментарии к Шагу 3.

1.Мы снизили число параметров модели. Напомним, что число параметров конкретного уравнения модели может быть не равно числу изучаемых предикторов. Число параметров модели определяется как количеством уровней предиктора, так и количеством взаимодействий предикторов.

2.Также мы доказали, что различия в объемах воздействия значимо не влияет

на β-CTX. Наличие химиотерапии ассоциировано со снижением уровня β-CTX в данном исследовании.

3.Мы ввели новый столбец данных Age.Group. BCTX, поскольку у нас есть еще один параметр костного метаболизма для исследования – остеокальцин. Возможно, деление на 4 группы по возрасту нам пригодится при его изучении.

4.Сравнение моделей проводили с помощью F-критерия. Можно использовать

идругие тесты: критерий Вальда, критерий отношения правдоподобия. Модели, построенные на различных наборах данных не сравниваются. Смысл сравнения заключается в том, что модель LM.1 объясняет такую же долю вариации в зависимой переменной y (отклика), как и модель LM.0, но при этом модель LM.1 использует

меньше параметров.

Мы не стали смотреть оценки параметров модели, хотя это можно сделать, но сначала необходимо убедится, что в модели или нет взаимодействия предикторов, или они присутствуют. Пока мы констатировали, что модель значимо не ухудшилась при объединении уровней предикторов.

Шаг 4.

Теперь оценим значимость попарных взаимодействий предикторов и удалим незначимые взаимодействия. Построим новую модель LM.interaction, в которой учтем попарные взаимодействия предикторов. Удаление незначимых переменных модели выполним, используя алгоритм "backward stepwise". Результаты подгонки модели LM.interaction приведены в Таблице 16-11 и Таблице 16-12.

Таблица 16-11. Таблица ANOVA модели LM.interaction

Предиктор

Сумма

Степени

Значение

p

 

квадратов

свободы

F-критерия

(Pr(>F))

 

 

 

 

 

160

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение