Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

Таблица 7–2. Основные характеристики описания выборки одной переменной исследования

Описательные статистики (descriptive statistics)

Переменная исследования

Расчет точечных и интервальных оценок

 

 

Биноминальная (два возможных

Точечная и интервальная (доверительный интервал)

результата, обычно 0 – отсутствие

оценки вероятности наступления события (исхода)

события и 1 – наличие события.

Подсчитывается пропорция как отношение количества

 

событий к размеру группы

Мультиноминальная

Точечная и интервальная оценки вероятности наступления

(неупорядоченные и

определенного состояния (исхода). Подсчитывается

неупорядоченные категории)

количество объектов в каждой категории и размер группы.

 

Указывается пропорция каждой категории в выборке

События в единицу времени

Точечная и интервальная оценки интенсивности

(представлены переменной

наступления событий (исходов). Рассчитывается время

количество событий за промежуток

наблюдения по выборке и количество событий

времени – интенсивность событий),

 

распределение Пуассона

 

Измерения на количественных

Точечная и интервальная оценки медианы, квартили,

шкалах, не подчиняющиеся закону

минимальное и максимальное значения

нормального распределения

 

(порядковые переменные)

 

Измерения на количественных

Точечная и интервальная оценки среднего, дисперсия

шкалах (нормальное распределение)

 

Как упоминалось ранее, анкета, в которой находятся данные, представляет собой таблицу, в которой строка – это один случай, столбец – это одна переменная исследования, на пересечении строки и столбца находится значение (точка данных), которое характеризует некую переменную для некоторого случая.

Если столбец – это биноминальная переменная, то необходимо выполнить подсчет количества нулей и количества единиц в столбце. Унивариантый анализ такой переменной будет проходить относительно этих двух чисел или отношения количества единиц к количеству наблюдений (исследуемых), размеру выборки (сумма количества нулей и количества единиц).

Если столбец – категориальная переменная (упорядоченная или не упорядоченная), то подсчитывается количество наблюдений, принадлежащих каждой из категорий. Унивариантый анализ такой переменной будет проходить относительно количества наблюдений, попавших в определенную категорию и размера выборки.

Если время наблюдения выборки связано с биноминальной переменной (наступило событие или нет), то подсчитывается суммарное время наблюдения и количество событий за время наблюдения. Каждый из столбцов может быть проанализирован отдельно (столбец событий – как биноминальная переменная, столбец времен наблюдения – как количественная переменная, у которой закон распределения отличается от нормального), иногда нужно описать соотношение числа событий к общему времени наблюдения. Унивариантый анализ такой переменной будет применен к отношению количества событий в выборке к суммарному времени наблюдения выборки.

По окончанию предварительного анализа правильнее всего будет составить таблицу вида Табл.7–3. Пример такой таблицы (Табл.7–4).

При необходимости, можно рассчитать доверительные интервалы. Однако дескриптивные статистики чаще представляются средним и среднеквадратичным отклонением (или ошибкой среднего), медианой и квартилями (размахом), количеством и пропорцией этого количества.

61

Таблица 7–3. Шаблон описания переменных в исследовании

Всего в исследовании n случаев

Наименование переменной

Тип

Расчет оценок

Примечание

 

 

 

 

Исход ( изучаемая, зависимая

 

 

 

переменная) ….

 

 

 

 

 

 

 

Переменные исследования

 

 

 

 

 

 

 

Переменная 1

 

 

 

 

 

 

 

Переменная 2

 

 

 

 

 

 

 

…..

 

 

 

 

 

 

 

Переменная k

 

 

 

 

 

 

 

Таблица 7–4. Пример описания переменных в исследовании

Всего в исследовании 143 случая

 

Наименование переменной

Тип

 

Расчет оценок

Примечание

 

 

 

 

 

 

 

 

Исход – послеоперационное

Упорядоченные

 

 

 

 

осложнение в течение 1 мес.

категории

 

 

 

 

после операции

0 – без осложнений

82

(57,4%)

 

 

 

 

1- легкие

22

(15,4%)

 

 

 

 

осложнения

 

 

 

 

 

 

2 – средняя тяжесть

13

(9,1%)

 

 

 

 

осложнений

 

 

 

 

 

 

3 – тяжелые

26

(18,1%)

1 пациент –

 

 

 

осложнения

 

 

летальный исход

 

Переменные исследования

 

 

 

 

 

 

 

 

 

 

 

 

 

Возрастная группа,1

1 от 20 до 29

27

(18,8%)

 

 

Кол-во в группе(процент)

2 от 30 до 39

38

(26,6%)

 

 

 

 

3 от 40 до 49

54

(37,8%)

 

 

 

 

4

50+

24

(16,8%)

 

 

Пол

 

Биноминальная

 

 

 

 

 

 

 

1 – мужской

68

(49,6%)

 

 

 

 

 

2 – женский

75

(52,4%)

 

 

Систолическое давление перед

Количественная,

 

 

1 пациент – 190,

 

операцией;

закон нормального

 

 

возможна ошибка в

 

среднее,

распределения

125,6

записи –

 

стандартное отклонение

 

 

22,7

перепроверить

 

 

 

 

 

 

 

данные

 

 

 

 

 

 

 

Лейкоциты перед операцией;

Количественная, не

5,4 (4,7;12,3)

 

 

медиана, квартили

подчиняется закону

 

 

 

 

 

 

нормального

 

 

 

 

 

 

распределения

 

 

 

 

Применение

Неупорядоченные

 

 

Препарат С

 

послеоперационных

категории

 

 

использовался в

 

препаратов

1 – препарат А

80

(55,9%)

двух формах,

 

 

 

2 – препарат В

25

(17,5%)

возможно нужны

 

 

 

3 – препарат С

38

(26,6%)

две отдельные

 

 

 

 

 

 

 

группы – уточнить

 

….

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 Разбиение на возрастные группы зависит от целей исследования, например: трудовой/пенсионный возраст; для детей: допубертатный период/пубертат/постпубертат и т.п.

62

7.4.Выбор переменной, связанной с исходом

Как видно из практики, одна из проблем исследования – это выбор переменной, связанной с исходом, т.е. той переменной, которая будет “сигнализировать” о том, насколько эффективно лечение, метод диагностики и пр. или констатировать наступление некоторого события. Безусловно, правильно будет определить эту переменную до начала исследования. Чаще всего используются данные литературы для определения общепринятого исхода. Однако, бывает необходимость перейти к другой шкале, отличной от исходной. Например, результаты лечения оценивались по некоторому опроснику в балльной шкале от 0 до 100 баллов. Как в этом случае определить, что является благоприятным исходом, а что нет? Во-первых, изучить внимательно эту балльную шкалу и определить пороговое значение между состояниями “есть эффект” и “нет эффекта”. Во-вторых, добавить “фиктивную” переменную, которая бы кодировала наличие и отсутствие результата лечения для каждого пациента (или градации эффекта). Тем не менее, убирать исходную количественную переменную из результатов исследования не рекомендуется, поскольку, возможно, будут уточнятся пороговые значения (градации), строится модель прогноза и пр.

Для переменных исхода, связанных с измерением некоторого параметра пациента – можно найти справочники и другую литературу, в которых приведены значения нормы у здоровых людей и на этом основании вводить фиктивную переменную (“норма/отсутствие нормы”). Можно определить несколько градаций такой переменной (Например: “нет улучшения/есть улучшение/выздоровел”).

Если переменная исхода является бинарной (например, “болен/здоров”), то никаких преобразований проводить не надо.

В любом случае, если переменная связана с состоянием исследуемого пациента, нужно четко определить процедуру выявления этого состояния. Она должна быть обязательно описана в исследовании.

Основные аспекты

Иметь четкое представление о своих данных необходимо.

Не все дескриптивные характеристики данных включаются в публикацию или отчет, но для понимания ваших данных лучше их иметь под рукой. Для числовых данных иметь их графическое представление нужно, даже если оно не будет использовано в публикации или отчете.

Умение “читать” графический материал – это первый шаг к пониманию данных. Иногда графики красноречивее слов. 1

Выбросы в данных должны быть тщательно перепроверены, задокументированы и принято решение, как с ними поступать в дальнейшем анализе.

1 Доказательство известной теоремы Пифагора приводится в книге «Венец астрономического учения» индийского математика XII в. Бхаскары. Собственно, все доказательство состоит из чертежа. В качестве пояснения фигурирует лишь слово «Смотри!».

63

8.Унивариантный анализ: сравнение с пороговым значением, доверительные интервалы

Для сравнения переменной исследования с пороговым значением используются так называемые одновыборочные тесты. Они сравнивают параметр (например, среднее, квантиль, медиану) с пороговым значением. В этом случае пороговое значение определяется в начале исследования. Пороговое значение в тесте с одной выборкой – неизменное фиксированное число. Например, одновыборочный тест может определить содержат ли 95% всех измерений давления величину ниже заданного порогового значения. Для этого примера, переменная – процент (пропорция) и пороговое значение составляет 95% (0,95). Это часто необходимо при изучении исхода, который может быть представлен количественной переменной при сравнении с нормами, принятыми для здоровых, или пациентов с определенным типом заболевания и т.п. Также может применяться при описании фактора, когда речь идет о том, что часть пациентов в исследовании имеет завышенные/заниженные показатели по сравнению с нормами для здоровых и т.п. В таком анализе неважно, идет речь о зависимой или независимой переменной

– это переменная исследования.

Статистическая задача – сравнить выборочные измерения переменной исследования с фиксированным пороговым значением.

Таблица 8–1. Критерии сравнения с пороговым значением

Сравнение с пороговым значением

Переменные исследования

Критерии

 

 

Пропорция

Одновыборочный тест пропорций

 

Точный биноминальный тест (Exact binominal

 

test)

Количественные измерения (не

Тест знаков рангов Виолкоксона (Wilcoxon Signed

подчиняющиеся закону нормального

Rank Test)

распределения)

 

Количественные измерения (нормальное

Одновыборочный t-тест

распределение)

 

Мы не будем останавливаться подробно на каждом из тестов, их расчет есть практически в любом статистическом пакете. Рассмотрим интервальное оценивание.

В статистике случайные величины представляются выборкой. Параметры (среднее, медиана, пропорция) – это характеристики(параметры) выборки, их мы оцениваем по выборке точечной оценкой (т.е. одно число вместо совокупности чисел) и доверительным интервалом (нижняя и верхняя граница этого числа с доверительной вероятностью 1 α ). Предполагается, что если мы повторим наш статистический эксперимент множество раз, то значение параметра в 1 α %

случаев будет лежать в пределах этого интервала.

Выдвигая некоторую гипотезу о разнице между средним (медианой, пропорцией и пр.) и некоторым фиксированным числом, тем самым мы проверяем, находится ли фиксированное число в доверительном интервале параметра. При построении доверительного интервала мы принимаем в расчет выбранный уровень значимости α , поэтому при различных уровнях значимости может получаться различный результат сравнения.

Если доверительный интервал, построенный для оцениваемого параметра (среднего, медианы, пропорции) содержит пороговое значение, то тест не покажет значимой разницы между оцениваемым параметром и пороговым значением. Для

64

того, чтобы говорить, что переменной исследования отличается от порогового (заданного фиксированного значения), это значение не должно находится в пределах доверительного интервала параметра (среднего, медианы, пропорции).

Ремарка: В статистике все рассчитывается и оценивается с некоторой вероятностью. Но чем грубее уровень значимости α , тем меньше доверительная вероятность 1 α , и тем меньше доверия к нашим выводам.

Для определенности рассмотрим 5 выборок (Табл. 8–2), рассчитаем средние, доверительные интервалы для различных гипотез (Табл. 8–3). Пусть наш фиксированный порог C 100 , выбранный уровень значимости α 0,05 .

Таблица 8–2. Данные выборок и выборочные характеристики

 

 

 

 

 

 

 

 

Выбороч-

 

Выборочная

 

Стан-

 

 

 

 

 

 

 

 

 

 

ное

 

дисперсия

 

дартная

 

 

 

 

 

 

 

 

 

 

среднее

 

s2

 

 

 

ошибка

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

среднего

 

 

 

 

 

 

 

 

 

 

x 1 xi

 

1

n

2

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

xi x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 i 1

 

SE n

 

 

Выборка А

114;119;117;121;115;116

 

 

 

117,0

 

 

 

6,8

 

1,06

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Б

99,4; 104,0; 102,0; 106,0; 100,0; 101,0

 

 

 

102,1

 

 

 

6,3

 

1,03

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка В

94,0; 100,4; 97,0; 102,0; 95,0; 96,0

 

 

 

97,4

 

 

 

6,9

 

1,29

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Г

94; 99; 97; 101; 95; 96

 

 

 

 

 

97

 

 

 

6,8

 

1,06

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Д

101,8; 104,0; 102,0; 107,0; 100,0; 101,0

 

 

 

102,6

 

 

 

6,3

 

1,03

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 8–3. Доверительные интервалы выборок

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Доверительные интервалы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xL x tγ ; n 1

 

s

 

; xU x tγ ; n 1

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

95% односторонние интервалы

 

 

 

 

95% двусторонний интервал

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t0,95;5 2,015

 

 

 

 

t0,95;5 2,015

 

 

 

 

 

 

 

t0,975;5 2,571

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка

 

Нижняя граница

 

 

Верхняя граница

 

 

Нижняя граница

 

Верхняя граница

 

 

 

 

 

одностороннего

 

 

одностороннего

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

95% интервала

 

 

95% интервала

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Верхняя +Inf)

 

 

(Нижняя –Inf)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка А

 

114,9

 

 

 

119,1

 

 

 

114,3

 

 

 

 

119,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Б

 

100

 

 

 

104,1

 

 

 

99,4

 

 

 

 

104,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка В

 

94,8

 

 

 

100,0

 

 

 

94,1

 

 

 

 

100,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Г

 

94,9

 

 

 

99,1

 

 

 

94,3

 

 

 

 

94,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Д

 

100,5

 

 

 

104,7

 

 

 

100,0

 

 

 

 

105,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R-скрипты для расчета данного примера приведены в Приложении R-1.

65

Вариант 1 (Рис. 8–1)

Для среднего истинное среднее меньше или равно C , H0 :μ C против HA :μ C . Иными словами, нулевая гипотеза утверждает, что истинное среднее

лежит левее или равно C . Варианты расположения доверительных интервалов представлены на рис. 8–1. Вертикальная линия на рисунке – это заданное пороговое значение, вертикальные штрихи на линиях интервалов – средние по выборке x .

Выборка А: Расчеты по выборочному среднему показали, что 117 100 . Строим 1 α односторонний доверительный интервал, вычисляем его нижнюю

границу (114,9). Нижняя граница доверительного интервала xL лежит правее порогового значения C . Проверка одновыборочным t-тестом покажет, что p α , нулевая гипотеза H0 :μ 100 отклоняется. Действительно, даже нижняя граница

доверительного интервала больше чем C ; иными словами – истинное среднее лежит правее порогового значения с доверительной вероятностью 95% ; истинное среднее больше C 100 на уровне значимости α 0,05 .

 

 

 

 

 

p <0,05

Выборка А

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p =0,05

 

 

 

 

 

Выборка Б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+Inf

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка В

 

 

 

p >0,05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С=100

Истинное значение параметра

Рис. 8-1. Вариант 1 : для среднего H0 :μ C против HA :μ C

Выборка Б: Расчеты по выборочному среднему показали, что 102 100 . Есть основания выдвинуть нулевую и альтернативную гипотезу. Строим 1 α

односторонний доверительный интервал, вычисляем его нижнюю границу. Нижняя граница доверительного интервала xL 100. Проверка одновыборочным t-тестом

покажет, что p α ; действительно, значение нижней границы не противоречит нулевой гипотезе H0 : μ C . В этом случае нужны дополнительные исследования

(увеличение объема выборки для фиксирования разницы между средним и пороговым значением);

Выборка В: Расчеты по выборочному среднему (выборочной пропорции) показали, что x 97 100 . Оснований для выдвижения основной и альтернативной гипотезы на самом деле очень мало, хотя в выборке есть значения, которые превышают пороговое значение C 100 . Тем не менее, попробуем проверить нашу гипотезу. Строим 1 α односторонний доверительный интервал, вычисляем его

нижнюю границу. Нижняя граница доверительного интервала xL 94,8 100. Проверка одновыборочным t-тестом покажет, что p α .

66

Вариант 2 (Рис.8–2)

 

 

 

 

 

 

 

 

Для среднего H0 : μ C против

HA : μ C . Нулевая гипотеза утверждает, что

истинное среднее лежит правее или равно C .

 

 

 

 

p <0,05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Г

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p =0,05

 

 

 

 

 

Выборка В

 

 

 

 

 

 

 

 

 

 

–Inf

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p >0,05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С=100

Истинное значение параметра

Рис. 8-2. Вариант 2 : для среднего H0 : μ C против HA : μ C

Вариант 3 (Рис. 8–3)

Для среднего H0 :μ C против HA :μ C . Если двусторонний доверительный интервал не содержит C , то p α (Выборки А и Г). Действительно доверительный

интервал расположен правее или левее порогового значения; если верхняя или нижняя граница равны C , то p α (Выборка Д); если доверительный интервал

содержит C , то p α (Выборки Б и В).

 

Выборка Г

 

 

Выборка А

 

p <0,05

 

 

p <0,05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка Д p =0,05

Выборка Б p >0,05

Выборка B p >0,05

С=100

Истинное значение параметра

Рис. 8-3. Вариант 3 : для среднего H0 : μ C против HA : μ C

Этот пример дает возможность понять, как “работают” доверительные интервалы в связке с уровнем значимости.

67

Одновременно мы коснемся ошибки второго рода β и мощности теста

(вероятность отклонения нулевой гипотезы, когда она ложна), которая определяется как 1 β . На рисунке 8–3 для выборок Б и В нет оснований отвергнуть

нулевую гипотезу, однако, при наличии дополнительных исследований (увеличения размера выборки), интервал уменьшится, что возможно повлечет за собой иной вывод. С другой стороны, если мы хотим обнаружить разницу между граничным значением C и нашим выборочным значением среднего по выборке Б не менее, чем 3 единицы, то можем рассчитать при α 0,05 и 1 β 0,8 (см. раздел 4.4):

z

 

z

2

 

1,96

2

 

n

1 α

2

1 β

 

s2

0,84

6,32 5,49 6 .

 

 

ε

32

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Это означает, что достаточно нашей выборки, чтобы утверждать, что разница в 3 единицы не обнаружена при мощности 1 β 0,8.

Еще раз вспомним, что нулевую гипотезу мы не доказываем, она остается верна, до тех пор, пока не появились новые доказательства.

Все рассуждения и выводы можно делать аналогично для пропорций. Пусть существует пороговое значение пропорции P .

Рассматриваются гипотезы:

 

вариант 1: H0 :π P против

HA :π P , где π – истинная пропорция в

популяции, P – некоторое пороговое значение ; вариант 2: H0 :π P против HA :π P ;

вариант 3: H0 :π P против HA :π P .

Расчет доверительных интервалов для пропорции осуществляется по формулам приблизительного расчета для пропорций, в односторонних интервалах вместо +Inf (читается как "плюс бесконечность") используется 1, вместо –Inf (читается как "минус бесконечность") используется 0, поскольку пропорция определяется на интервале от 0 до 1.

Медиана является 50% перцентилем выборки, поэтому могут проверяться гипотезы как для пропорции при P 0,5 .

Пример

Исследуются дети с определенным хроническим заболеванием. Известно, что некоторый параметр у детей изменяется с возрастом (например, размер печени, щитовидной железы и пр.)

Исследователь предполагает, что этот параметр при изучаемом заболевании отличается от параметра здоровых детей. Исследователь собрал данные по детям с изучаемым заболеваниям: возраст, пол, значение изучаемого параметра.

Как показать отличия детей, страдающих от данного заболевания и не подверженных данному заболеванию, по изучаемому параметру и есть ли они?

Шаг 1. Если у исследователя нет контрольной группы, или затраты на ее создания велики, или есть другие причины, то необходимо найти референтные значения, наиболее близкие к изучаемой когорте, например по Европе. Выбор референтной группы может диктоваться климатом и уровнем жизни, расой и спецификой питания и т.п. Все зависит от конкретных целей исследования. Некоторые исследования дают референтные значения по своей стране, различным

68

регионам и т.п. Есть публикации World Health Organization, содержащие референтные значения различных параметров у здоровых детей различного возраста.

Предположим, исследователь нашел необходимую референтную группу. Референтные значения заданы медианой и 97 перцентилем. Это означает, что переменная исследования у здоровых детей подчиняется некоторому закону распределения, возможно, отличен от закона нормального распределения. 97 перцентиль означает, что 97% выборочных значений лежит ниже (меньше) и только 3% выше (больше) значения 97 перцентиля (Р97).

Шаг 2. Рассмотрим данные, полученные исследователем, и сравним их с референтными. Референтными значениями являются значения P97 некоторой популяции1: 6 лет –4,80; 7 лет – 5,41; 8 лет – 6,44; 9 лет – 7,13; 10 лет – 7,65; 11 лет – 8,56; 12 лет – 11,31.

Например, для возраста 8 лет провели измерения у пациентов (мальчиков) с заболеванием и получили следующие значения: 2,63; 3,56; 5,18; 6,00; 6,13; 9,58; 20,12; 20,84. Референтное значение для здоровых мальчиков в возрасте 8 лет Р97=6,4.

Три пациента из восьми имеют размер, превышающий Р97 здоровой референтной группы мальчиков для возраста 8 лет.

Составим таблицу, в которой отметим количество пациентов мужского пола определенного возраста и среди них количество пациентов, у которых размер превышает референтное значение Р97 для своего же возраста. (Пример Табл. 8–4). Рассчитаем доверительный интервал (см. раздел 7.1.4) Последняя колонка – значимость точного биноминального теста. Его расчет необязателен, если мы приводим числовые данные и доверительные интервалы; в данном примере он приведен для демонстрации вышеизложенного материала о связи уровня значимости тестов и доверительных интервалов.

Таблица 8–4. Пример анализа данных с помощью доверительных интервалов

Возраст

N (кол-во

кол-во

пропорция

95% ДИ для

Точный

 

исследуемых

превышений

превышений

пропорции

биноминальный

 

пациентов

референтного

 

 

 

тест

 

определенного

P97

 

 

 

H0 :π 0,03

 

возраста)

 

 

 

 

HA :π 0,03

 

Пол мужской

 

 

 

 

 

 

 

 

Нижняя

Верхняя

 

 

 

 

 

граница

граница

 

 

 

 

 

 

 

 

6

2

0

0,00

0,0

0,842

>0,1

7

2

1

0,50

0,013

0,987

0,059

8

8

3

0,38

0,137

0,694

0,002

9

8

5

0,63

0,306

0,863

<0,001

10

15

6

0,40

0,198

0,643

<0,001

11

16

3

0,19

0,066

0,430

0,012

1 Zbigniew Szybinski, Malgorzata Trofimiuk, Monika Buziak-Bereza, Agnieszka Kieltyka, Grzegorz Sokolowski, Alicja Hubalewska-Dydejczyk. The thyroid volume reference values for Polish children // Endocrine Abstracts (2010) 22 P849.

69

 

12

 

23

4

 

0,17

0,070

0,371

0,005

 

 

Как видно из Табл. 8–4, для возраста 6–7 лет у нас не хватает данных для

более точных расчетов, доверительным интервалом является практически вся

область от 0 до 1. Для возрастов 8–12 лет пропорция превышения референтного Р97

далека от 3% (колонка 4). Ни один доверительный интервал не включает в себя

значение 0,03. Если бы размеры органа у заболевших и не заболевших мальчиков не

различались, то доверительный интервал содержал значение 0,03.

 

 

 

Вывод: размеры пораженного органа у мальчиков с хроническим

заболеванием в возрасте 8–12 лет значимо больше, чем у здоровых детей.

 

 

Комментарии к примеру.

 

 

 

 

 

 

 

Аналогично может быть составлена таблица для девочек. Мы не знали закона

распределения референтной группы, однако по тому, что в литературе были

представлены медиана и Р97, можно судить о том, что закон распределения

размеров здорового органа в популяции не является законом нормального

распределения1. Тем не менее, характеристик выборки референтной группы из

литературы нам было достаточно для изучения заболевших.

 

 

 

Доверительные интервалы можно отобразить на графике (Рис. 8–4).

 

 

Пропорция пациентов, превышающих референтные значения P97

 

 

 

 

1

 

 

 

 

 

 

 

 

 

0,9

 

 

 

Пропорции и

 

 

 

 

 

 

 

 

доверительные интервалы

 

 

 

 

 

 

 

 

 

 

 

 

0,8

 

 

 

0,03

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,7

 

 

 

 

 

 

 

 

Пропорция

0,6

 

 

 

 

 

 

 

 

0,5

 

 

 

 

 

 

 

 

0,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,3

 

 

 

 

 

 

 

 

 

0,2

 

 

 

 

 

 

 

 

 

0,1

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

7

8

9

10

11

12

13

 

 

 

 

 

 

Возраст

 

 

 

 

 

 

 

Рис.8–4. Пример визуализации результатов

 

 

 

Как видно из рисунка, есть некоторый возрастной тренд. Однако объяснение этого тренда – за исследователем. Аналитик может лишь констатировать его наличие. Тем не менее, визуализация помогла “увидеть” тренд.

В Приложении R-2 содержатся исходные данные примера и R-скрипты для расчетов пропорций, доверительных интервалов и биноминальных тестов.

Основные аспекты

Доверительные интервалы в статистике – это такая же характеристика данных, как и точечная оценка, но несет в себе значительно больше информации.

Доверительные интервалы – это иная интерпретация некоторых тестов и ими иногда удобнее пользоваться.

1 Если выборочное распределение подчиняется закону нормального распределения, обычно приводят среднее и стандартное отклонение SD. Отклонение на 2SD – есть 97 перцентиль нормального распределения (см. рис.6-2).

70

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение