Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Posobie Informatica

.pdf
Скачиваний:
25
Добавлен:
20.05.2015
Размер:
5.32 Mб
Скачать

71

Таким образом, статистический анализ медико-биологических данных должен начинаться с их первичной обработки, т.е. представления исходных данных в подходящей для анализа форме, и проведения проверки качества данных.

Порядок первичной обработки данных (предварительный анализ данных) представлен на рис 5.13.

Рис 5.13. Первичная обработка (предварительный анализ)данных.

Контрольные вопросы

1.Для чего может применяться математическая статистика в медицине?

2.Перечислите основные описательные статистики, используемые в предварительном анализе данных.

3.Что такое меры положения?

4.Что такое меры рассеяния?

5.Что такое среднее арифметическое? Какими свойствами оно обладает?

6.Что такое мода? Укажите моду в ряду {36,6; 36,6; 37,1; 37,1; 37,2; 38}.

7.Что такое процентили, квартили и медиана?

8.Для чего используется доверительный интервал?

9.Что такое дисперсия?

10.Что такое среднее квадратическое отклонение?

11.Что такое коэффициент вариации?

12.Что отражает стандартная ошибка среднего?

13.Что такое вероятность? По какой формуле она вычисляется? 14.Что такое математическое ожидание?

15.Что такое закон распределения случайной величины?

16.Какие виды распределений вам известны?

17.В чем разница между параметрическими и непараметрическими критериями?

72

Список литературы

1.Лях Ю.Е., Гурьянов В.Г., Хоменко В.Н., Панченко О.А. Основы компьютерной биостатистики: анализ информации в биологии, медицине и фармации статистическим пакетом Medstat. – Донецк:, 2006. – 214 с.

2.Островок здоровья. – Режим доступа: www.bono-esse.ru

3.Петри А., Сэбин К. Наглядная статистика в медицине. – М.: ГЭОТАР-

МЕД, 2003. – 139 с.

4.Платонов А.Е. Статистический анализ в медицине и биологии: задача, терминология, логика, компьютерные методы. – М.: Издательство РАМН,

2000. – 52 с.

5.Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. – М.: МедиаСфера, 2002. – 312 с.

73

ТЕМА 6 СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И ИХ ПРОВЕРКА

В статистике, как и в жизни, важные утверждения редко удается доказать окончательно и неоспоримо. Можно только выдвинуть утверждение, справедливое с некоторой степенью достоверности. Такое утверждение называют

статистической гипотезой.

Наиболее частыми задачами медицинских и биологических исследований, для решения которых оказывается необходимым сформулировать статистические гипотезы, являются следующие:

анализ соответствия распределения значений признака в изучаемой группе какому-либо определенному закону (например, анализ соответствия нормальному закону)

сравнение групп по параметрам распределений признака (например, по

средним значениям, дисперсиям).

Для решения любой подобной задачи формулируются две статистические гипотезы:

1.Нулевая гипотеза Н0 – предположение, что разница между генеральными параметрами сравниваемых групп равна нулю и различия, наблюдаемые между выборочными характеристиками, носят исключительно случайный характер;

2.Альтернативная гипотеза Н1 – противоположная нулевой –гипотеза

осуществовании различий между генеральными параметрами сравниваемых групп.

Обычно статистическая гипотеза формулируется таким образом, что бы она была противоположна той исследовательской (медицинской, биологической) гипотезе, которая послужила поводом для проведения исследования. Например, необходимо проверить эффективность применения препарата. Пусть есть две группы испытуемых. Одна принимает препарат, а вторая нет. Тогда в

качестве нулевой гипотезы Н0 можно принять гипотезу об отсутствии различия между результатами первой и второй группы. Тогда альтернативная гипотеза

Н1- наличие различий между группами.

Для проверки нулевой гипотезы применяют специальные статистические критерии. В результате возникают следующие 4 ситуации: (табл. 6.1).

Ошибка первого рода иначе называется уровнем статистической значимости. Уровень значимости - это максимально приемлемая для исследователя вероятность ошибочно отклонить нулевую гипотезу, когда она на самом деле верная, т.е. допускаемая исследователем величина ошибки первого рода. Величина уровня значимости устанавливается исследователем произвольно, однако обычно принимается равным 0,05, 0,01 или 0,001.

Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой β. Однако с этой величиной тесно связана другая, имеющая большое статистическое значение –

мощность (чувствительность) критерия. Она вычисляется по формуле (1 − β).

74

Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

Таблица 6.1.

Возможные решения при различных соотношениях результатов статистического теста и истинной ситуации в генеральной совокупности

 

 

В генеральной совокупности

 

 

Н0 неверна

Н0 верна

 

 

Истинно-

Ложно-

 

 

положительный

положительный

 

Н0 отклонена

результат

результат (ошиб-

 

 

 

ка первого рода

В статистическом

 

 

или -ошибка)

тесте

 

Ложно-

Истинно-

 

 

отрицательный

отрицательный

 

Н0 не отклонена

результат (ошиб-

вариант

 

 

ка второго рода

 

 

 

или -ошибка)

 

 

 

 

 

Как видно из вышеприведенного, ошибки первого и второго рода являются взаимно-симметричными, то есть, если поменять местами гипотезы H0 и H1, то ошибки первого рода превратятся в ошибки второго рода, и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) – например, что обследуемый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза H1 обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции.

С учётом этого ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием – например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Слово «положительный» в данном случае не имеет отношения к желательности или нежелательности самого события.

Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают положительный результат (т. е. показывают наличие заболевания у пациента), когда, на самом деле пациент этим заболеванием не страдает. Такой результат называется ложноположительным.

Из-за возможности ложных срабатываний не удаётся полностью автоматизировать борьбу со многими видами угроз. Как правило, вероятность ложного срабатывания коррелирует с вероятностью пропуска события (ошибки второго рода). То есть, чем более чувствительна система, тем больше опасных событий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний.

75

Поэтому чересчур чувствительная (параноидально) настроенная система защиты может выродиться в свою противоположность и привести к тому, что побочный вред от неё будет превышать пользу.

Соответственно, ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием – человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).

Слово «отрицательный» в данном случае не имеет отношения к желательности или нежелательности самого события.

Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают отрицательный результат (т.е. показывают отсутствие заболевания у пациента), когда, на самом деле пациент страдает этим заболеванием. Такой результат называется ложноотрицательным.

Входе применения статистического метода вычисляется значение тестовой статистики (например, при применении критерия Стьюдента – значение t),

атакже соответствующее ему и числу степеней свободы значение р – вероятность справедливости нулевой гипотезы.

Метод проверки статистических гипотез заключается в сравнении полученного значения р с принятым уровнем значимости:

- если рассчитанное в статистическом тесте значение р оказывается

больше принятого уровня значимости, то нулевую гипотезу Н0 не отклоняют и различия групп называются статистически незначимыми.

- если значение р оказывается меньше уровня значимости, то нулевую

гипотезу Н0 отклоняют, при этом следует принять альтернативную гипотезу Н1. В данном случае различия групп называют статистически зна-

чимыми (при р<0,05) или статистически высокозначимыми (при

р<0,01).

Вбиомедицинской статистике обычно выбирают уровень значимости, равный 0,05 или 0,01. Чем меньше выбрано значение уровня, тем ниже вероятность ошибки первого рода, то есть ошибочного отклонения верной нулевой гипотезы. Однако не следует забывать, что при этом возрастает вероятность ошибки второго рода, т.е. ошибочного принятия ложной нулевой гипотезы.

При сравнении двух выборок могут выдвигаться направленные и нена-

правленные гипотезы. Ненаправленная альтернативная гипотеза предпола-

гает, что значения переменной в первой выборке отличны от значений во второй (или отличны от некоторого фиксированного числа). Направленная альтернативная гипотеза предполагает, что значения переменной в первой выборке больше значений во второй (или фиксированного числа). Направленные и ненаправленные гипотезы проверяются, соответственно, с помощью односторонних и двусторонних критериев.

Стандартная, но существеннейшая статистическая задача – сравнение значений переменной (или нескольких однотипных переменных) в нескольких

76

группах (или подгруппах), выбранных из генеральной совокупности согласно некоему условию. Подобные выборки могут быть независимыми (несвязанны-

ми) или зависимыми (связанными, сопряженными, парными). Например, значе-

ния уровня сахара в крови у пациентов мужского пола в клинике и у пациентов женского пола являются независимыми, а значения уровня сахара крови, измеренные у одних и тех же пациентов утром и вечером - связанные.

Сравнение связанных и несвязанных выборок производится с помощью разных критериев (табл. 6.2).

Таблица 6.2.

Рекомендуемые к использованию статистические критерии в зависимости от задачи исследования и типа данных.

Задача

Метод

параметрический

непараметрический

 

 

 

Критерии Манна-Уитни,

Сравнение двух незави-

t-критерий Стьюдента

Колмогорова-Смирнова,

симых групп по одному

для независимых выбо-

Вальда-Вольфовица,

признаку

рок

критерий 2 , точный

 

 

критерий Фишера

Сравнение двух зависи-

t-критерий Стьюдента

Критерий Вилкоксона,

мых групп по одному

критерий знаков, крите-

для зависимых выборок

признаку

рий Мак-Нимара

 

Сравнение трех и более

 

ANOVA по Краскелу-

независимых групп по

ANOVA

Уоллису, медианный

одному признаку

 

критерий, критерий 2

Сравнение трех и более

 

Критерий Кокрена,

зависимых групп по од-

Критерий Кокрена

ANOVA по Фридману

ному признаку

 

 

 

Охарактеризуем кратко основные статистические критерии:

Параметрические критерии для проверки гипотезы о различии (или сходстве) между средними значениями

t-критерий Стьюдента – общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на сравнении с распределением Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках. Для применения данного критерия необходимо, чтобы исходные данные имели нормальное распределение. В случае применения двухвыборочного критерия для независимых выборок также необходимо соблюдение условия равенства дисперсий. Существуют, однако, альтернативы критерию Стьюдента для ситуации с неравными дисперсиями.

Двухвыборочный t-критерий для независимых выборок

Пусть 1 , 2 — средние арифметические выборок, σ12 — стандартные отклонения, а n1,n2 — размеры выборок.

77

В случае с незначительно отличающимся размером выборки применяется упрощённая формула приближенных расчётов (6.1):

t

 

1

2

 

 

 

(6.1).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

 

 

 

 

1

 

2

 

 

 

 

n1

 

n2

Количество степеней свободы рассчитывается как df n1 n2 2 .

Двухвыборочный t-критерий для зависимых выборок

Для вычисления эмпирического значения t-критерия в ситуации проверки гипотезы о различиях между двумя зависимыми выборками (например, двумя пробами одного и того же теста с временным интервалом) применяется следующая формула (6.2):

t

 

d

 

 

(6.2).

 

 

 

 

 

d

 

 

 

 

 

 

 

 

n

где d — средняя разность значений, σd — стандартное отклонение разно-

стей, а n — количество наблюдений

Количество степеней свободы рассчитывается как df n 1.

Непараметрические критерии для проверки гипотезы о различии (или сходстве) между средними значениями

Сравнение двух независимых групп

U-критерий Уилкоксона (Манна-Уитни) используется для проверки гипотезы о принадлежности сравниваемых независимых выборок одной и той же генеральной совокупности.

Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.

Ограничения применимости критерия:

1.В каждой из выборок должно быть не менее 3 значений признака. Допускается, чтобы в одной выборке было два значения, но во второй тогда не менее пяти.

2.В выборочных данных не должно быть совпадающих значений (все числа – разные) или таких совпадений должно быть очень мало.

Критерий серий Вальда-Вольфовица предзначен для проверки нулевой гипотезы о равенстве целого ряда параметров двух выборок, включая медианы и коэффициента асимметрии.

Сравнение двух зависимых групп

Т-критерий Уилкоксона используется в случае попарно связанных выборок. При этом ранжируют попарные разности – положительные и отрицательные (кроме нулевых) в один ряд так, чтобы наименьшая абсолютная разница (без учета знака) получила первый ранг, одинаковым величинам присваивают один ранг. Отдельно вычисляю т сумму рангов положительных (Т+) и отрица-

78

тельных (Т-) разностей. Меньшую из двух таких сумм без учета знака считают тестовой статистикой данного критерия. Нулевую гипотезу принимают на данном уровне значимости, если вычисленная статистика превзойдет табличное значение.

Порядок проведения сравнения средних значений двух групп представлен на рис. 6.1.

Сравнение средних значений нескольких выборок (множественные сравнения)

Если план исследования включает сравнение большего числа групп (больше, чем две группы), совершенно недопустимо просто сравнивать их попарно. Для корректного решения этой задачи можно воспользоваться, например, дисперсионным анализом. Однако дисперсионный анализ позволяет проверить лишь гипотезу о равенстве всех сравниваемых средних. Но, если гипотеза не подтверждается, нельзя узнать, какая именно группа отличалась от других. Это позволяет сделать методы множественного сравнения, которые в свою очередь также бывают параметрические и непараметрические. Эти методы дают возможность провести множественные сравнения так, чтобы вероятность хотя бы одного неверного заключения оставалась на первоначальном выбранном уровне значимости, например, 5%.

Параметрические критерии.

Критерий Стьюдента для множественных сравнений основан на ис-

пользовании неравенства Бонферрони: если k-раз применить критерий с уровнем значимости , то вероятность хотя бы в одном случае найти различие там, где его нет, не превышает произведения k на . Этот метод работает, если число сравнений невелико, обычно не больше 8. При большем числе сравнений критерий Ньюмана-Кейлса и Тьюки дают более точную оценку вероятности .

Критерий Даннета более чувствительный, чем предыдущий, особенно при большом числе групп. Критерий Даннета является модификацией критерия Ньюмана-Кейлса. Для проверки критерия средние значения упорядочиваются по абсолютной величине их отличия от контрольной группы, сравнения начинают с группы, наиболее отличающейся от контроля. Если различия с очередной группой не найдены, сравнения прекращаются.

Непараметрические критерии

Критерий Краскела-Уоллиса – непараметрический критерий для сравнения средних значений нескольких независимых выборок – основан на построении объединенного вариационного ряда из вариант рассматриваемых выборок и присвоении рангов всем вариантам в объединенном ряду, предназначен для проверки равенства медиан нескольких выборок.

Критерий Фридмана – это непараметрический аналог дисперсионного анализа повторных измерений, применяется для анализа повторных измерений, связанных с одним и тем же индивидуумом. Логика критерия очень проста. Каждый больной ровно один раз подвергается каждому методу лечения (или наблюдается в фиксированные моменты времени). Результаты наблюдения у каждого больного упорядочиваются. Причем мы отдельно упорядочиваем зна-

79

чения у каждого больного независимо от всех остальных. Таким образом, получается столько упорядоченных рядов, сколько больных участвует в исследовании. Далее, для каждого метода лечения вычисляется сумма рангов. Если разброс сумм велик - различия статистически значимы.

Порядок проведения множественных сравнений средних значений представлен на рис. 6.2.

ANOVA (дисперсионный анализ)

Дисперсионный анализ был разработан английским математиком Р.Фишером. Его чаще используют в научно-практических исследованиях общественного здоровья и здравоохранения для изучения влияния одного или нескольких факторов на результативный признак. Дисперсионный анализ основан на принципе «отражения разнообразий значений факторного на разнообразии значений результативного признака» и устанавливает силу влияния фактора в выборочных совокупностях.

Сущность метода дисперсионного анализа заключается в измерении отдельных дисперсий (общая, факториальная, остаточная), и дальнейшем определении силы (доли) влияния изучаемых факторов (оценки роли каждого из факторов, либо их совместного влияния) на результативный признак.

Дисперсионный анализ – это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В каче-

стве меры отклонений берется дисперсия ( 2 ) – средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Условия применения дисперсионного анализа:

1.Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).

2.Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.

3.Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (от англ. random), т.е. выбранные наугад.

4.Можно применять как количественные, так и качественные (атрибутивные) признаки.

Оценка значимости различия при альтернативной форме учета ре-

акций. Для оценки значимости расхождения частот какого-либо явления в двух группах может быть использован статистический метод, который носит назва-

80

ние критерия 2. Этот критерий может быть применен, например, при сравнении групп, получивших различные сравниваемые по своей активности препараты; групп, получивших различные дозы изучаемого препарата или одну и ту же дозу различными путями введения и т.д. Для описания результатов такого исследования удобно применять таблицу сопряженности, в которой для каждой из групп указывается число пациентов с каждым из градаций признака. Таким образом, для 2-х рассматриваемых групп и 2-х возможных исходов получается таблица размерности 2х2 (рис. 6.1). Для ответа на вопрос о значимости различий между группами вычисляется величина статистики 2, которая является показателем максимально возможных при данном уровне значимости отклонений частот.

Критерий 2 может применяться и к таблице сопряженности произвольной размерности.

Точный критерий Фишера основан на переборе всех возможных вариантах заполнения таблицы сопряженности при данной численности групп. Позволяет получить точные значения вероятности событий, столь же или еще менее вероятных, чем те, которые наблюдались в действительности.

Критерий Мак-Нимара применяется для анализа связанных измерений в случае измерения реакции для связанной переменной. Является аналогом параметрического критерия Стьюдента для зависимых выборок или непараметри-

ческого Т-критерий Уилкоксона.

Критерий Кокрена является аналогом непараметрического критерия Фридмана для случая альтернативного учета реакций. Сравнивается влияние различных воздействий на одну группу (мультиперекрестный план – повторные измерения) или однородные группы (рандомизированный блочный план). Нулевая гипотеза состоит в том, что в генеральной совокупности доли всех изучаемых воздействий одинаковы. Полученное значение статистики Q проверяется по таблицам 2 для выбранного уровня значимости и числа степеней свободы.

Порядок проведения парных и множественных сравнений качественных признаков представлен на рис. 6.1, 6.2.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]