- •Оглавление
- •Условные обозначения
- •Предисловие
- •Задачи биостатистики
- •Основные понятия и определения биостатистики
- •Классификация признаков
- •Анализ медико-биологических данных на основе их графического представления
- •Анализ медико-биологических данных на основе числовых статистических характеристик
- •Свойства нормального распределения
- •Теория проверки статистических гипотез
- •I алгоритм
- •II алгоритм
- •Проверка гипотезы о нормальности распределения случайной величины
- •Параметрические критерии проверки статистических гипотез
- •Анализ относительных величин
- •Доверительный интервал
- •Доверительный интервал для разности генеральных средних двух независимых групп
- •Доверительный интервал для разности генеральных средних двух зависимых групп
- •Доверительный интервал относительных показателей
- •Непараметрические критерии проверки статистических гипотез
- •Анализ качественных признаков. Таблицы сопряженности
- •Оценка факторов риска
- •Оценка чувствительности и специфичности диагностических тестов
- •Оценка прогностического значения диагностических тестов
- •Однофакторный дисперсионный анализ
- •Линейная корреляция
- •Коэффициент корреляции рангов к. Спирмена
- •Линейная регрессия
- •Анализ выживаемости
- •Методы прогнозирования
- •Методы простой экстраполяции
- •Метод среднего абсолютного прироста
- •Метод среднего темпа роста
- •Прогнозирование на основе математических моделей
- •Оценка факторов риска и прогнозирование на основе логистической регрессии
- •Анализ качественных признаков на основе логлинейной модели
- •Байесовский подход к диагностике и прогнозированию. Последовательный анализ вальда
- •Определение размера выборки
- •Расчет объема выборки при эпидемиологических исследованиях
- •Представление статистических данных в научных публикациях
- •Заключение
- •Список литературы
- •Приложение 1. Критические значения коэффициента асимметрии As
- •Приложение 2. Критические точки двустороннего tкритерия Стьюдента
- •Приложение 3. Критические значения Uкритерия МаннаУитни
- •Приложение 4. Критические значения парного Ткритерия Уилкоксона
- •Приложение 5. Критические значения χ2
- •Приложение 6. Критические значения коэффициента корреляции рангов Спирмена
- •Приложение 7. Критические значения Fкритерия Фишера
- •Ответы к контрольным заданиям
Анализ качественных признаков. Таблицы сопряженности
Проблема. В ходе наблюдения за беременными, страдающими преэклапсией (эклампсия — это наиболее тяжелая форма токсикоза беременных) было отмечено, что на ранних сроках беременности выраженное ожирение у них регистрировалось чаще, чем в целом в популяции. Возможно, это только впечатление отдельного врача, но поскольку это осложнение беременности слишком грозно, чтобы пренебрегать любыми возможностями предсказать и предотвратить его, все-таки необходимо проверить, является ли выраженное ожирение фактором риска возникновения преэклампсии, и если да, то насколько серьезно (клинически значимо) оно увеличивает этот риск в отношении отдельно взятой пациентки. Для этого необходимо проанализировать частоту встречаемости ожирения, возможно среди женщин с преэклампсией эта патология регистрируется чаще, чем среди тех, кто не имеет этого грозного осложнения беременности. |
Существует множество признаков, различных явлений и вещей, измерение которых затруднено или вовсе невозможно. Например, как измерить признак «вид патологии» или «профессия», а как сравнить эти признаки для получения статистического представления о профессиональной заболеваемости?
В этих случаях изучается распространенность признаков, частота встречаемости признаков (доля объектов с интересующим нас признаком) в различных выборках, оценивается взаимосвязь частоты встречаемости одного признака с частотой встречаемости другого признака.
Для этого используются таблицы сопряженности. Столбцы этой таблицы обозначают градации одного признака, строки – градации другого признака. В каждой ячейке записывается число случаев с сопряженными признаками.
Наиболее простой случай таблица 2х2 (исследуется частота совместного распространения двух признака, каждый из которых имеет две градации). Еще их называют четырехпольными таблицами.
В общем случае Н(0) формулируется следующим образом:
в генеральных совокупностях доля объектов с интересующими нас признаками одинакова
или частота встречаемости одного признака не зависит от частоты встречаемости другого признака
или какой-либо фактор не влияет на частоту встречаемости признака (признаков)
СЛУЧАЙ 1. Выборки независимые
Предположим, что у нас есть два качественных признака, характеризующие обследованных лиц. Занесем эти данные в таблицу сопряженности 35
Таблица 35. Таблица сопряженности
|
Первый признак (первая градация) |
Первый признак (вторая градация) |
Всего |
Второй признак (первая градация) |
Частота встречаемости a |
Частота встречаемости b |
a +b |
Второй признак (вторая градация) |
Частота встречаемости c |
Частота встречаемости d |
с+d |
|
n1=a+c |
n2=b+d |
n =a+b+c+d |
Критерий хи-квадрат Пирсона вычисляется по формуле
(29)
Но для таблицы 2х2 более точные результаты дает критерий с поправкой Йетса
(30)
Его критическое значение находится для заданного уровня значимости α и числа степеней свободы f=(n-1)(m-1), где n и m число строк и число столбцов в таблице сопряженности (Приложение 5).
Если то Н(0) принимается,
В случае принимается Н(1)
Когда число наблюдений невелико и в клетках таблицы встречается частота меньше 5, критерий хи-квадрат неприменим и для проверки гипотез используется точный критерий Фишера. Процедура вычисления этого критерия достаточно трудоемка и в этом случае лучше воспользоваться компьютерными программами статанализа.
По таблице сопряженности можно вычислить меру связи между двумя качественными признаками – ею является коэффициент ассоциации Юла Q (аналог коэффициента корреляции)
(31)
Q лежит в пределах от 0 до 1. Близкий к единице коэффициент свидетельствует о сильной связи между признаками. При равенстве его нулю – связь отсутствует.
Аналогично используется коэффициент фи-квадрат (φ2)
(32)
В примере с беременными, страдающими преэклампсией, была получена следующая таблица сопряженности 36 Таблица 36. Данные к примеру
Н(0): наличие у беременной выраженного ожирения не влияет на риск возникновения преэклампсии Н(1): наличие у беременной выраженного ожирения увеличивает риск возникновения преэклампсии Выберем уровень значимости: α=0,05
для α=0,05 и f=(n-1)(m-1)=1 Т.к. принимается Н(1) Вывод: наличие у беременной выраженного ожирения статистически значимо (с вероятностью не менее 95%) увеличивает риск возникновения преэклампсии. А теперь рассмотрим клиническую значимость влияния фактора ожирения на протекание беременности. Из таблицы сопряженности можно посчитать, что доля лиц с ожирением среди тех, у кого нет преэклампсии, составляет 140/1660*100%=8,4%. Среди лиц с преэклампсией эта доля 26,5%, разница составляет 18,1%. Это выборочная разница и для нее необходимо определить 95% доверительный интервал. Как это сделать мы уже рассматривали. После расчетов получаем, что генеральная разница лежит в пределах от 13,8% до 22,4%. Даже нижний предел ДИ свидетельствует о клинической значимости этих различий. Коэффициент ассоциации Юла Q=0,6 указывает на среднюю по силе связь между фактором риска и предродовым осложнением.
Эти же данные, обработанные в программе STATISTICA (модуль «непараметрическая статистика, таблицы 2×2»)
Таблица 37. Результаты статобработки
Столбец 1 Столбец 2 Всего Частоты, стро а 1 120 140 260 % случаев 5,7 % 6,6 % 12,3 % Частоты, строка 2 332 1520 1852 % случаев 15,7 % 72 % 87,76 % Всего 452 1660 2112 % всего 21,4 % 78,6 %
Хи-квадрат (f=1) 107,99 p=0,0000
Поправка Йетса 106,32 p=0,0000
Фи-квадрат ,05113
Точный ритерий Фишера, одностор.
----
Точный критерий Фишера, двустор.
----
Хи-квадрат Макнемара 1193,42 p=0,0000
|
Таблицы сопряженности могут иметь и более сложный вид, когда каждый признак имеет более двух градаций. Нулевая гипотеза заключается в отсутствии связи между этими признаками. Ниже приведен пример подобного случая – нужно выяснить есть ли взаимосвязь между профессией и обращаемостью к врачу.
Таблица 38. Таблица сопряженности 3х4
|
профессия |
всего | ||||
обращаемость к врачу |
строители |
шахтеры |
учителя |
госслужащие | ||
до 3 в год |
21 |
26 |
19 |
17 |
83 | |
от 4 до 6 в год |
9 |
15 |
12 |
6 |
42 | |
более 6 в год |
7 |
8 |
6 |
4 |
25 | |
всего |
37 |
49 |
37 |
27 |
150 |
Анализ таких таблиц также предпочтительно проводить с использованием компьютерных программ.
СЛУЧАЙ 2. Выборки зависимые
Проблема. Острые респираторные вирусные инфекции (ОРВИ) являются серьезной проблемой здравоохранения во многих регионах мира в связи с их широкой распространенностью и наносимым ими значительным социально – экономическим ущербом. Исследования показали, что у 92-94 % детей, страдающих частыми респираторно-вирусными заболеваниями, имел место дисбактериоз кишечника. Наличие дисбаланса нормофлоры, снижая антиинфекционную резистентность организма ребенка, не только сопровождает, но и влияет на частоту и характер течения острой респираторной инфекции у детей, способствуя развитию осложнений, что и позволяет считать терапевтическое и профилактическое применение биологических препаратов целесообразным и патогенетически обоснованным. Стояла задача изучить эффективность пробиотика метаболитного типа в комплексной терапии у детей при осложненной смешанной респираторной вирусной инфекции и его влияние на микробиоценоз кишечника. В исследовании приняли участие 32 больных в возрасте от 1 мес. до 13 лет со среднетяжелыми и тяжелыми осложненными формами ОРВИ. Были получены следующие данные. Таблица 39. Данные к примеру
Частота нарушений микрофлоры после лечения снизилась на 43,8-15,6=28,2%. Подтверждают ли результаты выборочного исследования эффективность пробиотика? |
Над одними и теми же объектами проводятся два наблюдения: «до» и после. (прием лекарства, обучение, внушение и т.д.)
Подсчитывается сколько раз данное свойство встречается:
и «до» и «после», (+,+)
только «до» (+,-)
только «после» (-,+)
ни «до» ни «после» (-,-)
Таблица 40. Таблица сопряженности для случая зависимых выборок
|
Признак «после» | |
Признак «до» |
Вторая градация «после»(-) |
Первая градация «после»(+) |
Первая градация «до»(+) |
a Число изменений от (+) к (-) |
b Число сохранивших (+) |
Вторая градация «до» (-) |
c Число сохранивших (-) |
d Число изменений от (–) к (+) |
Н(0) –частота встречаемости градаций признака после воздействия фактора не изменилось
Критерием для проверки нулевой гипотезы является хи-квадрат Макнемара
(33)
Если то Н(0) принимается,
Если то принимаем Н(1)
В задаче с эффективностью пробиотика составим следующую таблицу сопряженности 41 для зависимых выборок. В ячейку a запишем число лиц, у которых был обнаружен дисбактериоз до лечения, но не обнаружен после (28,2% или 9 человек из 32). В ячейку b – число лиц, которым лечение не помогло (15,6% или 5 человек), в ячейку с – долю лиц, у которых как не было дисбактериоза, так и нет (56,2% или 18 человек), и в ячейку d – долю лиц, у которых после лечения вдруг он обнаружился (в нашем случае таких не было).
Таблица 41. Данные к примеру
Н(0): частота нарушений микрофлоры кишечника не зависит от лечения пробиотиком Н(1): частота нарушений микрофлоры кишечника зависит от лечения пробиотиком Выберем уровень значимости: α=0,05, вычислим χ2=7,11 Критическое значение = 3,841 (по таблице для f=1, Приложение 5). Полученное значение χ2=7,11 больше, чем критическое, следовательно, мы отвергаем нулевую гипотезу и принимаем альтернативную. Вывод: с вероятностью не менее 95% частота нарушений микрофлоры кишечника зависит от лечения пробиотиком. Определим 95%ДИ для разности долей, он составляет от 12,5до 43,7%. Доверительный интервал достаточно широкий, т.е. доля лиц с положительны эффектом от лечения определена неточно, что может быть связано с недостаточным объемом выборки. Однако, даже нижний предел ДИ свидетельствует о клиническом эффекте от применения препарата. |
Контрольное задание 9:
По данным из таблицы 42 определите
Какова цель проведенного исследования
Какой статистический критерий был использован для достижения этой цели. Обоснуйте ответ.
Сделайте обоснованный вывод в соответствии с поставленной целью.
Таблица 42. Данные к заданию
|
Доза препарата 0,5 мг/л |
Доза препарата 1 мг/л |
α |
Вычисленное знач. критерия |
Есть положительный эффект |
12 чел. |
27 чел. |
0,01 |
0,01 |
Нет положительного эффекта |
8 чел. |
17 чел. |