5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных
.pdfСтатистический анализ медицинских данных ...
ДИ рекомендуется представлять в виде указания нижней и
верхней его rраниg. В общем виде rраниgы ДИ для среднего
вычисляют по следующим формулам:
М - txm - нижняя rраниgа; М + txm - верхняя rраниgа, где t - значение критерия Стьюдента, соответствующее выбран ному уровню статистической значимости и числу степеней свобо ды (число степеней свободы равно п-1, где п - число объектов исследования в выборке). Это значение может быть найдено с
помощью программы "Probability calculator" ("Вероятностный калькулятор"1) •
STAТISТICA:
-+ Модуль "Основные статистики и таблиgы"
( "Basic statistics/ТаЫеs" )
-+ Подмодуль "Вероятностный калькулятор"
( "ProbaЬility calculator")
Вдиалоговом окне (рис. 7.9) необходимо выполнить следующее:
-выбрать вид распределения "t Стьюдента" ("Student t test")
-выбрать опgии "Обратная ф.р."2, "Двусторонняя"3 ("two-sid- ed") и "1- ф.р."
-задать число степеней свободы "Ст. св." ("df' 4 )
-задать значение уровня значимости р (например, 0,05 для вычисления rраниg 95°1о ДИ)
-нажать кнопку "Вычислить" ("Сompute")
Искомое значение t появится в окне "t".
В частности, ДИ для среднего значения признака в выборке
(в случае нормального распределения) из 100 наблюдений (объ
ектов исследования) может быть вычислен следующим образом:
|
99°1о ДИ |
интервал ме-я<Ду (М-2,63т) и (М+2,63т); |
||||
- |
95°1о ДИ |
- |
интервал ме)I<ДУ |
(М-1,98т) |
и |
(М+1,98т); |
- |
90°1о ДИ |
- |
интервал ме)1<Ду |
(М-1,ббт) |
и |
(М+1,66т). |
Формат представления ДИ в виде (М±1,98т) допускается
использовать только в таблиgах (с gелью экономии места) и только в том случае, если ДИ симметричен. Однако такой формат пред-
1Калькулятор для расчета вероятностей (Примеч. ред.).
'Функция распределения ( Пр1tме•t. ред.).
1 Имеется в виду двусторонняя функция распределения (Примеч. ред.).
' Degrees of freedom (англ.).
90
Статистический анализ медицинских данных ...
7 .3. Некоторые частные аспекты
представления количественных данных
7 .3. 1. Точность представления описательных
статистик количественных данных
Обычно результаты вычислений описательных статистик со держат большее число значащих 1JИфр, чем это было в исходных данных. В этом случае числовые данные должны округляться на
основании правила арифметического округления1 • Принято при
водить ОlJенки параметров (например, среднего значения и СКО)
с той же точностью, с которой были представлены исходные дан ные. Например, если артериальное давление измерялось с точно
стью до разряда едиНИlJ, то следует приводить параметры, на
пример, не в виде 145,36±27,427 мм рт. ст., а в виде 145±27.
7 .3.2. Данные связанных групп
Данные связанных групп - это данные, полученные от одно
го участника исследования (до и после лечения, справа и слева и т.п.) или от разных участников, но подобранных в пары по опре
деленным характеристикам. Такие данные могут быть представ лены на графиках (например, зависимость значений изучаемого
признака от времени) или в таблицах. Зачастую средние значе
ния изучаемого признака в группах таких парных наблюдений (объектов исследования) не различаются. Поэтому в случае ис
следования динамических изменений количественных данных часто
возникает необходимость О1Jенить их по отношению к исходно му уровню. При этом интервальные количественные данные пре образуются в относительные количественные данные. д,ля такого
преобразования тради1Jионно рекомендуется пользоваться следую щей формулой:
1 Правило арифметического округления чисел: чтобы округлить число до п
значащих 4ифр, необходимо отбросить все 4ифры, стоящие после n-ro разряда.
При этом, если за последней сохраняемой 4ифрой следует 4ифра О, 1, 2, 3 или 4,
при округлении сохраняются все чифры до последней сохраняемой включитель
но (округление с недостатком). Если за последней сохраняемой 4ифрой следу ют 9, 8, 7, 6 или 5, то к последней сохраняемой чифре прибавляется единича (округление с юбытком).
92
Глава 7. Описание количественных признаков
[ (А1-А0) / А0] х100%,
где А0 - исходное значение признака, А1 - последующее его
значение.
Если результат такого преобразования является отриqатель
ным числом, то знак минус опускают и говорят об уменьшении значений параметра. Если результат является положительным
числом, то говорят об увеличении значения параметра. В табли
qе можно привести значения со знаками минус или плюс.
О сравнении связанных групп по количественным признакам
см. разделы 8.3 и 8.5.
7 .3.3. Преобразование количественных
данных
В ряде случаев возникает необходимость в преобразовании
полученных данных, например:
-если изучаемый признак распределен не в соответствии с
законом нормального распределения, а для использования
определенного статистического метода необходимо именно нормальное распределение признщ<а. В этом случае qелью преобразования является приведение распределения к нор
мальному;
-если необходимо обеспечить независимость дисперсии от сред
него значения, поскольку для использования ряда методов
требуется обеспечить такую независимость;
-если необходимо оптимизировать множественную регресси
онную модель.
В этих случаях могут быть применены следующие методы
преобразования данных: логарифмирование;
извлечение квадратного корня;
обратное преобразование и т.д.
В результате некоторых преобразований распределение полу
ченных данных может превратиться из исходно ненормального в
нормальное, что дает основание для использования параметриче
ских статистических методов.
Однако следует помнить, что при преобразовании данных пре образовываются и единиqы их измерения, теряя при этом свой физический смысл. Кроме того, результаты анализа преобразо
ванных данных бывает трудно интерпретировать.
93
Статистический анализ медицинских данных ...
7 .3.4. Описание данных, полученных в малых
выборках
Малыми условно принято называть такие выборки, в которых
число наблюдений (объектов исследования) меньше 20. Эга гра
ниgа условна. Ограничение основано на том, что при использова нии методов описательной статистики для описания небольшого
числа наблюдений (объектов исследования) можно получить ис
кажение реальности, т.е. ввести в заблуждение исследователей, ав
торов, читателей. Например, имеющихся данных может быть не достаточно для того, чтобы проанализировать вид распределения
изучаемого признака. В то же время необходимо заметить, что
среднее значение и СКО формально можно рассчитать и из двух
наблюдений (объектов исследования). При описании мальrх вы борок принято в текстах статей и диссертаgий представлять дан
ные в исходном виде, а методы описательной статистики исполь зовать лишь как вспомогательный способ описания выборки.
7 .3.5. Анализ выпадающих данных Выпадающие значения ("выбросы") - крайние значения при
знаков, не характерные для данной выборки, слишком большие или слишком малые значения. Они могут искажать распределе ние исходных данных и оказывать непропорgионально большой
эффект на результаты всех типов статистического анализа. Причины возникновения выпадающих значений могут быть
следующими:
ошибка при получении данных (артефакт); ошибка при подготовке данных (опечатка);
аномальное значение признака.
Первые две ситуаgии могут быть обнаружены на этапе полу
чения описательных статистик (например, при вычислении ми
нимальных и максимальных значений признака).
В последнем же случае от исследователя требуется особое
внимание.
Бытует мнение (например, [17, с. 42) ), что на основании
"правила трех сигм"1 можно исключать из анализа наблюдение
1 Правило трех сиrм: при нормальном распределении признака 99,7% наблюдений
(объектов исследования f; располагаются внутри интервала с границами м±3s
(s - это СКО, оцененное.~"~о выборке). ,д;..я описания признаков, агносящихся к ге
неральной совокупности, в математической статистике используются буквы грече
ского алфавита, а для описания признаков, относящихся к выборке, - ла-mнские буквы.
94
Глава 7. Описание количественных признаков
(объект исследования), если значение признака не укладывается в интервал м±3s (причем Ми s рассчитываются без учета резко отклоняющегося значения признака), и в дальнейшем анализи
ровать данные без него.
Однако в настоящее время предпочтительным считается дру гой подход. Тактика работы с выпадающими значениями сле
дующая. Данные необходимо анализировать два раза - вместе с этим выпадающим значением, а затем без него. После этого не
обходимо сравнить результаты, и если они устойчивы к выпадаю
щему значению (т.е. результаты различаются незначительно), то
взять первый результат. Если же они различаются, необходимо
привести и прокомментировать и тот, и другой.
В любом случае факт исключения выпадающих данных дол жен упоминаться при описании и обсуждении полученных ре
зультатов, а таюке должно быть приведено обоснование такого
исключения.
95
Статистический анализ медицинских данных ...
Глава 8. Сравнение групп
по количественному признаку
К количественным признакам относятся непрерывные и дис
кретные (см. главу 2). Дискретные признаки занимают условно
промежуточное положение между непрерывными и качествен
ными порядковыми. Методы анализа непрерывных признаков
могут применяться и для анализа дискретных признаков при ус
ловии, что число возможных значений дискретного признака дос
таточно велико.
В настоящее время в зарубежных медю:Jинских исследовани
ях используются два подхода к сравнению двух групп по количе
ственному признаку:
1)с использованием доверительных интервалов (ДИ);
2)путем проверки статистических гипотез.
Эги два подхода различаются по вопросам, на которые с их
помощью могут быть получены ответы. Сравнение с помощью
ДИ отвечает на вопрос "Насколько велики различия генеральных совокупностей (популяgий) ?", а сравнение с помощью стати стической проверки гипотез - на вопрос "В какой степени мо:жно
быть уверенным, что различия ме-я<Ду генеральными совокупно
стями (популяgиями) действительно СУПJествуют?" Перечислен
ные подходы основаны на одних и тех же допущениях и стати
стических принgипах, поэтому они лишь дополняют друг друга.
Вообще говоря, в настоящее время при описании результатов
исследования рекомендуется представлять результаты примене
ния обоих подходов.
Выбор подходящего метода сравнения определяется несколь
кими факторами:
чv~слом сопоставляемых групп;
-зависимостью или независимостью выборок (групп);
-видом распределения признаков.
Как уже упоминалось выше, группы являются независимыми
(несвязанными), если набор объектов исследования (участии-
96
Глава 8. Сравнение групп по количественному признаку
ков) в каждую из групп осуществлялся независимо от того, ка
кие объекты исследования (участники) включены в другую груп
пу. Так, в частности, происходит при рандомизаqии, когда рас
пределение участников исследования по группам происходит слу
чайным образом.
Группы являются зависимыми (связанными), например, в
следующих случаях:
-в исследовании случай-контроль, когда набор в группы осу
ществляется с использованием подбора пар;
-в динамических исследованиях, когда изучаются одни и те же
объекты в разные моменты времени.
Or вида распределения и типа исследуемого признака зави
сит выбор между двумя классами статистических методов - па
раметрическими и непараметрическими методами.
Параметрические методы применимы к количественным при
знакам, имеющим нормальное распределение.
Непараметрические методы применяются к количественным
признакам независимо от вида их распределения (в том числе и
кнормально распределенным признакам).
Вданной главе рассматривается решение следующих задач:
сравнение одной группы с популяqией (см. раздел 8.1):
-в елучае нормально распределенного признака;
-в случае любого распределения признака;
-сравнение двух независимых (несвязанных) групп (см. раздел
8.2):
-ДИ для разности средних;
-параметрический метод;
-непараметрические методы;
-сравнение двух зависимых (связанных) групп (см. раздел 8.3):
ДИ для средней разности;
-параметрический метод;
-непараметрические методы;
сравнение трех независимых (несвязанных) групп и более
(см. раздел 8.4):
-параметрический дисперсионный анализ;
-непараметрические методы;
сравнение трех зависимых (связанных) групп и более (см. раздел 8.5):
- непараметрический дисперсионный анализ.
97
Статистический анализ медицинских данных ."
8.1. Сравнение одной группы
спопуляцией
Задача. Известно среднее значение изучаемого признака в
популяqии (популяqионное среднее значение), необходимо со
поставить с ним среднее значение изучаемой группы.
Пример: обследованы дети в возрасте 10 лет; средний рост (по данным популяqионных исследований) для детей такого воз
раста составляет 140 см. Необходимо выяснить, не отстают ли в
росте дети исследуемой группы.
Решение зависит от того, каково распределение изучаемого
количественного признака:
-нормальное (см. раздел 8.1.1);
-отличное от нормального или неизвестное (см. раздел 8.1.2).
8. 1. 1. Случай нормально распределенного
признака
Способ l - оценка с помощью 95% доберительноzо ин
тервала для среднею значения. Если изучаемьrй признак рас
пределен в изучаемой группе в соответствии с законом нормаль
ного распределения, то граниqы 95о/о ДИ для среднего определя
ются как [М - txm; М + txm], где М - среднее значение, т -
стандартная ошибка среднего, t - значение t-критерия для соот
ветствующего числа степеней свободы и выбранного уровня ста
тистической значимости. Число степеней свободы df=n-1, где
п - число объектов исследования в группе.
Значение t-критерия для конкретного случая можно узнать,
воспользовавшись опqией "Вероятностный калькулятор".
STАТISТICA:
-+ Модуль "Основные статистики и таблиqы"
( "Basic statistics/TaЬles" )
-+ Подмодуль "Вероятностный калькулятор"
( "Pгobability calculator")
В диалоговом окне (см. рис. 7.9) необходимо выполнить следую
щее:
-выбрать вид распределения "t Стьюдента" ("Student t-test")
-выбрать опqии "Обратная ф.р.", "Двусторонняя"
( "ТWO-Sl'dеd") И "1 - ф.р. "
98
Глава В. Сравнение групп по количественному признаку
-задать число степеней свободы "Ст. св." ( "df')
задать значение р (например, 0,05 для вычисления
границ 95"/о ДИ)
нажать кнопку "Вычислить" ("Сompute")
Искомое значение t появится в окне "t".
Интерпреrация результатов. Если рассчитанный ДИ не
включает популяционное среднее, то с определенной долей уве
ренности (соответствующей доверительному коэффициенту, на пример 95"/о) можно считать, что выборка статистически значи мо отличается от генеральной совокупности (популяции).
Представление результатов. Привести следующую инфор-
мацию:
-популяционное значение;
-среднее значение, рассчитанное по выборке;
-границы 9 5°1о ДИ.
Способ Il - про8ерка тпотез. Можно применить t-кри
терий Стьюдента, если изучаемый признак имеет нормальное распределение в выборке. При этом проверяется нулевая гипотеза об отсутствии различий средних. Альтернативная гипотеза - су
ществование различий средних.
STAТISТICA:
-+ Модуль "Основные статистики и таблицы"
( "Basic statistics/TaЬles")
-+ Подмодуль "Другие критерии значимости"
( "Other significance tests") в версиях ППП
STATISТICA 5.* ("ProbaЬility calculator"
в версиях 4.*.)
-+ Процедура "Различие между двумя
средними (нормальное распределение)"
("Difference Ьetween two means (normal distribution) ") (рис. 8.1 )
Включить режим "Среднее выборки 1 по сравнению со сред
ним популяции 2" ("Single mean 1 vs. population mean 2").
Затем нужно внести значения среднего, СКО и число наблю
дений (объектов исследования) в соответствующие окошки, а
после этого нажать кнопку "Вычислить" ("Compute"). Будет
рассчитано значение р.
99