Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

эксперимент останенется статистически незначимым, т.е. мы не имеем права экстраполировать результаты на популяцию.

При множественных попарных сравнениях одновременно проверяется несколько гипотез.

Аналогично Таблице 4-1 мы можем составить Tаблицу 21-4.

Tаблица 21-4. Уровень ошибки при множественных сравнениях

 

Число верных гипотез

Число неверных гипотез

 

(нет различий, нулевая

(различия истинны)

 

гипотеза верна)

 

“Не значимо”

A

B

“Значимо”

 

 

C

D

 

 

 

Мы контролируем групповую вероятность ошибки первого рода (family-wise error rate) C A C на уровне 0,05, т.е. оставляем за собой право на ошибку в 5%

случаев сравнения. Эта ошибка применима к каждому сравнению отдельно, поэтому мы должны учесть это путем уточнения уровня значимого отклонения при каждом сравнении.

Обычно в исследованиях, свзязанных с лечением, исследователя интересуют различия в эффектах разных типов лечения/препаратов при завершении экпериментальной части исследования, а не отдельно в каждой точке визита пациента. Поэтому чаще количество сравнений рассчитывается исходя из количества групп лечения. Если в исследовании три группы – это значит, что мы сделаем три попарных сравнения. Если интерес исследования состоит только в сравнении с экспериментальных лечений с контрольной группой – то таких сравнений будет два.

Различные статистически пакеты предлагают различные алгоритмы расчетов таких сравнений (с учетом и без учета повторяющихся измерений). Внимательно читайте рекомендации по использованию различных способов сравнения. Они могут меняться из-за различий в количестве наблюдений в группах, из-за того, используются ли поврояющиеся измерения или нет, какая именно поправка на множественные сравнения используется и т.п.1

Можно рекомендовать следующее:

Если решается задача третьего типа – повторные измерения на одних их тех же образцах при различных воздействиях – используйте для множественных сравнений парный t-критерий с поправкой Бонферрони. В задачах 1-2 типа – аналогично используте такие расчеты для сравнения двух точек времени.

Сравнение между типами лечения, когда пациентов разбивают по различным группам, лучше проводить по критерию Тьюки.

Сравнение с контрольной группой – по критерию Даннета.

Основные аспекты

ANOVA требует проверки предположений, лежащих в основе данного анализа.

Сбалансированность групп (в идеале – рандомизация) должна быть соблюдена.

ANOVA хорошо визуализируется и картину изменений, взаимодействий вы можете оценить предварительно по графикам.

1 Эта одна из причин того, почему в публикации обязательна ссылка на используемый статистический пакет.

221

Нельзя вести анализ параметра по группам пациентов отдельно, равно как и не стоит вести его отдельно по точкам наблюдения: до, во время и после лечения. Вы увеличиваете вероятность ошибки. Анализ должен быть общим, учитывать особенности пациентов.

Проводя только парные сравнения без поправки, мы можем контролировать только ошибку парного сравнения (comparisonwise error rate (CER)); используя критерий Фишера мы можем контролировать ошибку эксперимента при гипотезе омнибуса, см. раздел 15 (experimentwise error rate under the complete null hypothesis (EERC)); используя поправки, мы контролируем максимальную ошибку эксперимента (maximum experimentwise error rate under any complete or partial null hypothesis (MEER)).

Таким образом, сила статистического вывода зависит от того, какую ошибку мы контролируем.

222

22.Лабораторные эксперименты

Большинство лабораторных исследований на животных являются рандомизированными контролируемыми исследованиями (randomized controlled trials – RCT).

Эти исследования имеют три важных аспекта:

Рандомизация (Randomization). Животные случайным образом распределяются по группам лечения. Рандомизация важна, потому что увеличивает вероятность того, что среди групп лечения нет различий в начале исследования, и поэтому различия между группами в конце исследования являются результатом лечения. Рандомизация не гарантирует, что группы лечения точно сопоставимы в каждом исследовании, только то, что они будут сопоставимы в среднем. Попрежнему существует вероятность того, что группы будут отличаться только случайностью, а рандомизация позволяет измерять вероятность различий из-за случайности.

Контроль (Control). В исследовании сравниваются результаты для животных, получающих интересующее лечение и конечные результаты для животных в сравнительной группе, которая во всех отношениях одинакова, кроме лечения. Обычно группа сравнения получает плацебо или текущий стандарт лечения. Это необходимо, потому что часто животные могут чувствовать себя лучше/хуже сами по себе и важно знать, как лечение влияет на них помимо того, что произошло бы в отсутствие лечения.

Ослепление (Blinding): экспериментатор не знает, какие животные получают лечение. Это важно, чтобы избежать таких проблем, как обеспечение лучшего ухода или применение разных стандартов (даже не осознавая этого) к одной из групп.

22.1.Базовые схемы дизайна

Распространенные общие схемы рандомизированных контролируемых испытаний

Параллельный дизайн (Parallel design). Этот общий проект исследования начинается с одной группы животных. Каждому животному произвольно назначается одно и только одно лечение.

Блочный дизайн (Blocked design). Иногда животные естественным образом группируются в блоки или группы, которые могут отличаться друг от друга, например, помет, клетка или стойка. Нецелесообразно применять лечение (обработку) А к первой клетке, лечение (обработку) В ко второй клетке и т. д., потому что было бы невозможно определить, были ли какие-либо различия вызваны обработкой или различными условиями в разных клетках. В этой ситуации принято рандомизировать животных в каждой клетке. Таким образом, если есть две процедуры, половина животных в первой клетке будет назначена на лечение А, а половина будет назначена на лечение В. Та же схема рандомизации будет проводиться в других клетках.

Согласованный дизайн (Matched design): животные подбираются на основе таких характеристик, как пол, возраст и генетика. Например, в исследовании могут использоваться 10 пар новорожденных братьев и сестер самок. Каждому животному из каждой пары произвольно назначается лечение А, а другому животному назначается лечение В.

Парный дизайн (Paired design): каждая процедура применяется к другой части тела одного животного. Например, лечение А может быть применено к правому глазу, а лечение В - к левому глазу того же животного.

223

• Перекрестный дизайн (Crossover design): для одного и того же животного последовательно применяют две или более обработки. Животные рандомизированно получают лечение либо A, либо лечение B, во-первых, в случае, если порядок, в котором лечение принимается, влияет на результат. Каждое животное получает одно лечение в течение определенного периода времени, затем, после периода выздоровления или “вымывания” (wash-out) без лечения, получает второе лечение.

22.2.Описание данных

Статистический анализ зависит от типа собранных данных. Основные типы данных опсаны подробно в Разделе 3.2. Сбор данных описан в Разделе 5.

A. Категориальные данные:

Номинальные: данные могут быть разделены на две или более групп, которые не имеют естественного рангового порядка.

живые / мертвые

мужской /женский

группа крови

Порядковые: данные могут быть разделены на три или более групп, которые могут быть естественно ранжированы от низкого до высокого

стадия опухоли

лучше / одинаково / хуже

любая рейтинговая шкала

B. Количественные данные:

Счетные: Данные, которые представляют количество наблюдаемых элементов; Может быть целым числом, большим или равным нулю

количество измененных клеток

количество опухолей

Непрерывные величны, не подчиняющиеся закону нормального распределения:

данные, которые могут принимать значения, отличные от положительных целых чисел, но которые обычно не распределены нормально

коэффициенты

проценты

титры

Непрерывные величны, подчиняющиеся закону нормального распределения:

Данные, которые следуют нормальному распределению. Это важно, потому что многие общие статистические тесты, включая t-тесты и дисперсионный анализ, основаны на предположении, что данные распределены нормально.

вес

длина

объем

Количественные данные могут быть произвольно разделены на категории (например, вес <5 г против веса> 5 г). Это может быть полезно для описания данных, но приводит к потере точности при проведении статистических расчетов.

Первым шагом в любом статистическом анализе является обобщение и описание данных.

A. Категориальные данные:

Укажите количество и процент в каждой категории.

224

Например, “состояние 24 из 40 животных (60%) улучшились в ходе исследования, состояние 12 животных (30%) остались неизменными, а у остальных

4(10%) ухудшилось”.

B. Количественные данные:

Количественные данные должны описываться как мерой расположения, которая описывает центр распределения, или типичным значением; а также мерой дисперсии, которая описывает меру распространения данных, или как данные соотносятся с центром распределения. Обычные меры определения местоположения включают среднее, медиану и геометрическое среднее. Обычные меры дисперсии включают стандартное отклонение, доверительный интервал и интерквартильный размах (IQR). Выбор для конкретного анализа зависит от типа обобщаемых данных (см. Раздел 7.1.5).

Счетные: Медиана и IQR

Непрерывные величны, не подчиняющиеся закону нормального распределения:

Медиана и IQR, или среднее геометрическое и доверительный интервал. Среднее геометрическое (Сг) и доверительные интервалы для Сг часто используются для отношений, титров и других измерений, которые лучше всего просматривать и анализировать в логарифмической шкале.

Непрерывные величны, подчиняющиеся закону нормального распределения:

среднее и стандартное отклонение

22.3.Статистические критерии

Выбор соответствующего статистического критерия (теста) зависит от исследовательского вопроса, дизайна исследования и типа данных. Три общих вопроса исследования:

Чем отличаются две группы? Например, сравнить лечение с плацебо.

Чем отличаются несколько групп? Например, сравнить несколько доз лекарственного средства или несколько разных методов лечения одного и того же состояния/заболевания.

Насколько хорошо согласуются два измерения? Например, могут ли животные, получающие более высокую дозу, иметь лучшие результаты, или как согласуются два разных способа измерения одного и того же признака (величины), дают ли они аналогичные результаты?.

Параллельный и блочный дизайн предполагает, что одно животное получает только одно лечение, данные независимы, результат для одного животного не дает никакой информации об исходе для другого животного.

Согласованный, парный и перекрестный дизайн предполагает, что животное или пара подопытных животных, получают все виды лечения и, следовательно, могут сравниваться сами с собой. Эти исследования дают зависимые данные, в которых два измерения, проведенных на одном и том же животном (или подобранной паре животных), могут быть сходны друг с другом способами, не связанными с лечением, что означает, что зная первый результат для животного (или пары), мы располагаем информацией о втором результате.

Ниже в таблицах собраны основные статистические критерии для зависимых и независимых данных в различных дизайнах исследования.

225

Таблица 22–1. Параллельные группы, независимые данные

Распределение данных

Сравнение 2 групп

 

Сравнение 3 и более

 

 

 

 

групп

Категории

Хи-квадрат критерий,

Хи-квадрат критерий

 

Точный критерий Фишера для

Точный критерий

 

малых выборок

 

Фишера-

 

 

 

 

Фримана_Халтона

Счетные и количественные

Критерий манна-Уитни /

Критерий Краскела-

(отличные от нормального)

Критерий ранговых сумм

Уоллиса

 

Вилкоксона

 

 

 

Количественные нормально

t-критерий для независимых

Дисперсионный анализ

распереденные

выборок

 

(ANOVA)

Таблица 22–2. Парный, согласованный или перекрестный дизайн; зависимые данные

 

 

 

 

 

Распределение данных

Сравнение 2

 

Сравнение 3 и

Согласие и

 

типов лечения

 

более типов

 

ассоциация между

 

 

 

лечения

 

двумя

 

 

 

 

 

измерениями

 

 

 

 

 

одного и того же

 

 

 

 

 

признака

 

 

 

 

 

(величины)

Категории

Критерий Мак-

 

Критерий

 

Каппа Коэна

 

Нимара

 

Кокрейна

 

 

 

 

 

(Cochran’s Q)

 

 

Счетные и количественные

Критерий

 

Критерий

 

Ранговая

(отличные от нормального)

знаков рангов

 

Фридмана

 

корреляция

 

Вилкоксона

 

(Friedman

 

Спирмена

 

 

 

ANOVA)

 

 

Количественные нормально

Парный t-

 

Дисперсионный

Корреляция

распереденные

критерий для

 

аналз

 

Пирсона

 

зависимых

 

повторяющихся

 

 

выборок

 

измерений

 

 

 

 

 

(ANOVA)

 

 

22.4.Расчет размера выборки

Исследования на животных должны быть рассчитаны на использование минимального количества животных, необходимых для достижения целей исследования. Соответствующее количество животных зависит от следующих факторов:

размер эффекта (например, разница в средних между двумя группами);

изменчивость данных (например, стандартное отклонение);

желаемый уровень значимости (вероятность найти значимый результат случайно, когда действительно нет эффекта, обычно 5%, см. раздел 4.2);

желаемая мощность (вероятность нахождения значимого результата, когда она действительно существует, обычно задается 80% или 90%%, см. раздел 4.3).

Часто исследователи не знают ожидаемого размера эффекта или изменчивости данных, когда они планируют исследование. Они могут быть оценены по результатам предыдущих исследований или из небольшого экспериментального исследования. В общем, чем больше размер эффекта и чем меньше изменчивость данных, тем меньше требуемый размер выборки.

В разделе 4.3 даны базовые формулы для расчета размера групп.

226

Основные аспекты

В этой главе не рассмотрено ничего нового, однако она позволяет понять, что методы статистического оценивания и вывода применимы в различных областях исследований независимо от объекта исследования (биологические клеточные характеристики или пациенты, экспериментальные животные или социологические опросы и т.д).

Кроме того, это ответ на частые вопросы о том, a) почему в “похожих” клинических исследованиях мы используем различные критерии для оценки различий в данных; б) почему в различных по смыслу исследованиях применяются один и те же критерии. Смотрите в суть ваших данных и вашего дизайна. Не пытайтесь “копировать” путь и логику другого исследования, разберитесь с вашими данными в вашем исследовании.

227

23. Уровень значимости и доверительные интервалы: практический подход

Красота статистической обработки данных заключается в двух основных моментах: доказательность и интерпретируемость.

Когда исследователь заявляет, что ему нужно “провести какой-то статистический анализ” – по моим наблюдениям, он напуган аппаратом статистического анализа, который ему непонятен, он не понимает, как оценить свои результаты математически. Он не соотносит анализ и медицинскую (клиническую, биологическую) интерпретацию результатов. Когда исследователь говорит о том, что ему нужно понять, как ведут себя данные в исследовании, например, снижает ли новый препарат побочные эффекты, повышается ли выживаемость при изменении лечения и т.д., то он использует статистический анализ для расчета эффектов/воздействий и пр., интерпретации и понимания своих результатов исследования.

Стандартный уровень значимости p 0,05 используется для заявления о том,

что некоторый статистический эффект составляет 0,05. Так или иначе, термин “статистически значимо” стал синонимом 0,05 . Есть несколько историй о том, почему так используется значение 0,05 , и все они корнями уходят ко всемирно известному ученому в области статистики Р. Фишеру.

Чтобы понять значение p , нужно понять, что такое фиксированный уровень

тестирования гипотезы. Процесс исследования начинается с выдвижения нулевой гипотезы. И нулевая гипотеза обычно говорит о нашем “незнании”, она предполагает, что нет никаких различий. Мы предполагаем, что если данные, которые мы соберем поведут себя определенным образом, то нулевая гипотеза останется верной. Если же собранные данные поведут себя как-то иначе, мы сможем рассчитать тестовую статистику – насколько собранные данные будут отклонятся от нулевой гипотезы. Эта процедура известна как фиксированный уровень тестирования, потому что нулевая гипотеза, тестовая статистика и ее уровень фиксируется до сбора данных.

На сегодняшний день, когда компьютеры и статистические пакеты вошли в повседневную практику, мы отмечаем наблюдаемый уровень значимости (или значение p ) – самый маленький фиксированный уровень, на котором наша нулевая

гипотеза может быть отвергнута. Если ваш фиксированный уровень исследования больше или равно значению p , вы отказываетесь от нулевой гипотезы. Если ваш

фиксированный уровень исследования меньше, чем значение p , вы не можете отвергнуть нулевую гипотезу. Например, если значение p 0,023, результаты имеют

важное значение для всех фиксированных уровней больше, чем 0,023 (например, 0,05) и не имеют существенного значения для всех фиксированных уровней меньше, чем 0,023 (например, 0,01). Исследователь, который использует уровень 0,05 отказался бы от нулевой гипотезы в то время как исследователь, который использует уровень 0,01 не сможет ее опровергнуть.

Каким бы малым не было значение p , статистическую значимость необходимо отличать от практической важности.

Рассмотрим несколько исследований по изменению уровня гемоглобина в экспериментальной и контрольной группах (Табл. 23–1).

228

Формально, 1, 2 и 4 исследование удовлетворило требованию p 0,05. Но

только результаты исследования 2 представляют интерес для практического использования.

Формально, исследование 4 и 5 рапортуют о различных результатах – в исследовании 4 есть значимые различия на уровне p 0,05, в исследовании 5

таковых нет. Для того, чтобы сделать окончательный вывод в исследовании 4, нужно определить мощность исследования – количество наблюдений, которое нам понадобится, чтобы вынести окончательное решение. Но что нам мешает сделать то же самое в исследовании 5?

Одна из известных систематических ошибок в мета-анализе носит название “публикационное смещение” (publication bias). В публикацию отправляют результаты, в которых найдены различия на уровне p 0,05. Т.е. результаты

исследования 4 будут опубликованы вероятнее, чем результаты исследования 5.

Таблица 23–1. Данные условных исследований

 

 

 

 

 

 

 

 

 

Номер

 

x

экс xконтр

p

95%

Интерпретация

Практическая

 

 

исследования

 

 

 

доверительный

“В среднем

важность

 

 

 

 

 

интервал

содержание

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

гемоглобина

 

 

 

 

 

 

 

 

увеличивается

 

 

 

 

 

 

 

 

на…..”

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

<0,001

1÷3

на 2 ( от 1 до 3)

Нет

 

 

 

 

 

 

 

 

 

 

2

 

30

 

<0,001

20÷40

на 30 ( от 20 до

Есть

 

 

 

 

 

 

 

40)

 

 

 

 

 

 

 

 

 

 

3

 

10

 

>0,1

–10 ÷ 30

на 10 ( от –10 до

Нет доказательств,

 

 

 

 

 

 

20)

что

 

 

 

 

 

 

 

 

экспериментальная

 

 

 

 

 

 

 

группа

лучше

 

 

 

 

 

 

 

контрольной

 

 

 

 

 

 

 

 

 

4

 

30

 

0,032

2÷58

на 30 ( от 2 до

?

 

 

 

 

 

 

 

58)

 

 

 

 

 

 

 

 

 

 

 

5

 

30

 

0,061

–2÷62

на 30 ( от –2 до

?

 

 

 

 

 

 

 

62)

 

 

 

 

 

 

 

 

Значение p – это вероятность появления ваших фактических наблюдений в

условиях

нулевой гипотезы. Значение p не является вероятностью

того, что

нулевая гипотеза верна. Малое значение p заставляет отказаться вас от нулевой

гипотезы, потому что произошли события, которые в условиях нулевой гипотезы вряд ли бы произошли.

Однако, отсутствие доказательств не есть доказательство отсутствия1.

Пример

Данные взяты из реального исследования. Задача исследования немого упрощена, однако продемонстрированы приемы и методы, о которых шла речь в данном пособии.

1 Altman D.G., Bland J.M. Statistics notes: Absence of evidence is not evidence of absence, BMJ, 1995, Vol. 311, No. 7003. —, p.485.

229

Изучалось дополнительное лечение (поддерживающая химиотерапия) для лечения пациентов с некоторой первичной формой ракового заболевания III стадии после операционного вмешательства. Пациенты проходили лечение в одной клинике. Данные по таким пациентам были получены с 1999 по 2010 гг. из Регистра раковых заболеваний.

Задача исследования – оценить преимущества дополнительного лечения (treatment benefit) на снижение риска неблагоприятного исхода в течении 5 лет после лечения для исследуемой популяции при наличии поддерживающей химиотерапии.

Чаще изучаются факторы риска, связанные с неблагоприятным исходом, в данном примере показано, как один и тот же аппарат анализа используется при различных целях исследования: мы будем изучать не фактор риска, а преимущества лечения.

Висследование были включены 395 пациентов, которые соответствовали критериям включения (первичная форма, III стадия, морфологическое подтверждение диагноза и стадии, радикальное лечение). Часть пациентов наблюдалась после радикального лечения, часть получала поддерживающее лечение. Поддерживающее лечение назначалось нерандомизированно и состояло из 6 курсов.

Впримере опущена описательная часть , касающаяся радикального лечения, а также эпидемиологических характеристик исследуемой когорты.

Тип исследования определялся как квазиэкспериментальное, открытое когортное историческое исследование (данные получены из записей предыдущих лет). Сроки наблюдения пациентов различны. Неблагоприятное событие – смерть от основного заболевания. Следовательно, мы анализируем причинно-специфическую выживаемость (канцер-специфическую). Метод исследования – анализ выживаемости.

Шаг 1.

В процессе анализа данных выяснилось, что часть пациентов получила не 6 курсов поддерживающей химиотерапии, а меньше.

Одним из вопросов предварительного анализа данных был вопрос о том, как рассматривать группу пациентов, получивших неполный курс поддерживающей химиотерапии1.

Построенный график зависимости выживаемость от количества курсов (Рис.22–1) дал возможность предположить, что можно выделить 3 группы: 0 курсов (Группа 0), 1–4 курса (Группа 1–4) , 5–6 курсов (Группа 5–6).

После разбиения на группы использовался общий логранговый тест для установления различий между группами. Тест был значим на уровне p 0,028.

Дальнейшее сравнение между группами показало, что значимые различия существуют только между группами 0 и 5–6 ( p 0,006). Между группами 0 и 1–4

различия были незначимы ( p 0,945), незначимы были различия между группами

1–4 и 5–6 ( p 0,107).

У нас не было оснований присоединять группу 1–4 к какой либо из других групп и нас интересовал риск связанный с наличием или отсутствием

1 Все расчеты и построение графиков проводились с помощью статистического пакета R

(R Foundation for Statistical Computing, Vienna, Austria; http://www.r-project.org/; Accessed August 1, 2011) с пакетами survival и rms.

230

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение