- •Оглавление
- •Условные обозначения
- •Предисловие
- •Задачи биостатистики
- •Основные понятия и определения биостатистики
- •Классификация признаков
- •Анализ медико-биологических данных на основе их графического представления
- •Анализ медико-биологических данных на основе числовых статистических характеристик
- •Свойства нормального распределения
- •Теория проверки статистических гипотез
- •I алгоритм
- •II алгоритм
- •Проверка гипотезы о нормальности распределения случайной величины
- •Параметрические критерии проверки статистических гипотез
- •Анализ относительных величин
- •Доверительный интервал
- •Доверительный интервал для разности генеральных средних двух независимых групп
- •Доверительный интервал для разности генеральных средних двух зависимых групп
- •Доверительный интервал относительных показателей
- •Непараметрические критерии проверки статистических гипотез
- •Анализ качественных признаков. Таблицы сопряженности
- •Оценка факторов риска
- •Оценка чувствительности и специфичности диагностических тестов
- •Оценка прогностического значения диагностических тестов
- •Однофакторный дисперсионный анализ
- •Линейная корреляция
- •Коэффициент корреляции рангов к. Спирмена
- •Линейная регрессия
- •Анализ выживаемости
- •Методы прогнозирования
- •Методы простой экстраполяции
- •Метод среднего абсолютного прироста
- •Метод среднего темпа роста
- •Прогнозирование на основе математических моделей
- •Оценка факторов риска и прогнозирование на основе логистической регрессии
- •Анализ качественных признаков на основе логлинейной модели
- •Байесовский подход к диагностике и прогнозированию. Последовательный анализ вальда
- •Определение размера выборки
- •Расчет объема выборки при эпидемиологических исследованиях
- •Представление статистических данных в научных публикациях
- •Заключение
- •Список литературы
- •Приложение 1. Критические значения коэффициента асимметрии As
- •Приложение 2. Критические точки двустороннего tкритерия Стьюдента
- •Приложение 3. Критические значения Uкритерия МаннаУитни
- •Приложение 4. Критические значения парного Ткритерия Уилкоксона
- •Приложение 5. Критические значения χ2
- •Приложение 6. Критические значения коэффициента корреляции рангов Спирмена
- •Приложение 7. Критические значения Fкритерия Фишера
- •Ответы к контрольным заданиям
Байесовский подход к диагностике и прогнозированию. Последовательный анализ вальда
Когда к врачу приходит пациент, врач предварительно, основываясь на интуиции и своем опыте или знаниях о распространенности болезни в популяции, имеет некоторое предположение относительно заболевания это априорная, или дотестовая вероятность. Далее, имея уже результаты клинического анамнеза и лабораторных тестов, он выстраивают картину болезни пациента, и увеличивает или уменьшает вероятность своего предположения – это апостериорная вероятность. В свете новых данных (например, по истечении некоторого времени лечения) апостериорная вероятность может быть пересмотрена.
Подобный алгоритм положен в основу Байесовского классификатора. Данный подход рассчитывает вероятность того, что гипотеза истинна, путем обновления предшествующих мнений о гипотезе, по мере того как новые данные становятся доступными Метод оперирует вероятностью особого типа, известной как условная вероятность. Это вероятность события при условии, что другое событие уже произошло. Например, распространенность сахарного диабета в Европе составляет 6% (вероятность 0,06), но если у конкретного пациента обнаружено повышенное содержание глюкозы в крови, то вероятность обнаружить у него сахарный диабет резко возрастает.
Апостериорная вероятность является фактически условной вероятностью гипотезы, использующей результаты исследования.
Теорема Байеса утверждает, что апостериорная вероятность пропорциональна априорной, умноженной на величину, называемую правдоподобием наблюдаемых результатов (которая описывает правдоподобие наблюдаемых результатов, если гипотеза верна).
Вероятность того, что событие А произойдет, если событие В уже произошло
(79)
Отношение правдоподобия положительного результата теста это шанс положительного результата теста, если пациент имеет заболевание, деленный на шанс положительного результата теста, если он заболевания не имеет.
На формуле Байеса основана диагностическая процедура, которая использует метод последовательного статистического анализа А. Вальда. Рассмотрим суть этого метода. Пусть перед нами стоит задача выбора диагноза А или В. Известна распространенность этих заболеваний, т.е. априорные вероятности Р(А) и Р(В). После обнаружения у пациента признака х1
(80)
где отношение априорных вероятностей
отношение апостериорных вероятностей при условии обнаружения признака х1
вероятность (отн. частота встречаемости) признака х1 при диагнозе А
вероятность (отн. частота встречаемости) признака х1 при диагнозе В
отношение правдоподобия
Тогда процесс дифференциальной диагностики выражается следующим образом
(81)
Т.е., если полученное выражение больше некоторого порогового значения А, то ставится диагноз А, если меньше некоторого порогового значения В, то ставится диагноз В. Если ни один из порогов не достигнут, то для диагностики привлекается следующий признак х2 и проверяется неравенство
(82)
и т.д.
Если использована вся имеющаяся в распоряжении информация, и ни один из порогов так и не достигнут, то делается заключение, что информации не достаточно для постановки диагноза.
Пороговые значения устанавливаются по следующим формулам
(83)
(84)
где α – вероятность ошибки первого рода вероятность ложно поставить диагноз В, когда на самом деле верен диагноз А
β – вероятность ошибки второго рода вероятность ошибочно поставить диагноз А, когда на самом деле верен диагноз В
Вероятности ошибок первого и второго рода устанавливаются самим исследователем, исходя из сути решаемой проблемы.
Для удобства вычислений используются не сами отношения шансов, а их десятичные логарифмы, умноженные на число 10, и далее округленные до целых. Полученную величину называют диагностическим коэффициентом
(85)
Пороги также выражаются через логарифмы
(86)
(87)
Тогда алгоритм диагностики имеет следующий вид
(88)
Процесс диагностики значительно ускоряется, если использовать признаки в порядке убывания их информационной ценности. Под дифференциальной информативностью признака понимается степень различия его распределения при дифференцируемых состояниях А и В.
Удобной мерой для оценки информативности является мера Кульбаха
(89)
Если признак имеет диапазоны (например, возраст имеет диапазоны дети, взрослые, пожилые), то информационная ценность всего признака
(90)
Вопрос о минимальной информативности признака еще не нашел своего решения, но некоторые авторы рекомендуют включать в процедуру прогноза признаки с
Рассмотрим пример прогнозирования послеродовых осложнений. С этой целью были сформированы две выборки: основная (п=34) это лица, у которых наблюдались послеродовые осложнения, и контрольная (без осложнений), в которую вошли 32 роженицы. Всего исследовано 20 признаков, которые имели от 2 до 3 диапазонов. Результаты всех расчетов приведены в таблице 84.
Таблица 84. Данные к примеру
№ |
Факторы риска |
Число случаев |
Р/Р |
ДК | ||||||||||||
Осн.гр.(A) п=34 |
Контр. гр.(B) п=32 | |||||||||||||||
1 |
Мед аборты до настоящих родов 12 |
есть |
7 |
3 |
0,206 |
0,094 |
2,196 |
3 |
0,19 |
0,22 | ||||||
нет |
27 |
29 |
0,794 |
0,906 |
0,876 |
1 |
0,03 | |||||||||
2 |
Самопроизвольные выкидыш до настоящих родов |
есть |
9 |
4 |
0,265 |
0,125 |
2,118 |
3 |
0,23 |
0,28 | ||||||
нет |
25 |
28 |
0,735 |
0,875 |
0,840 |
1 |
0,05 | |||||||||
3 |
Патология шейки матки |
есть |
5 |
4 |
0,147 |
0,125 |
1,176 |
1 |
0,01 |
0,01 | ||||||
нет |
29 |
28 |
0,853 |
0,875 |
0,975 |
0 |
0,00 | |||||||||
4 |
Бесплодие в анамнезе |
есть |
6 |
1 |
0,176 |
0,031 |
5,647 |
8 |
0,55 |
0,59 | ||||||
нет |
28 |
31 |
0,824 |
0,969 |
0,850 |
1 |
0,05 | |||||||||
5 |
Многоплодная беременность |
есть |
6 |
3 |
0,176 |
0,094 |
1,882 |
3 |
0,11 |
0,13 | ||||||
нет |
28 |
29 |
0,824 |
0,906 |
0,909 |
0 |
0,02 | |||||||||
6 |
Токсикозы |
в первой половине |
21 |
16 |
0,618 |
0,500 |
1,235 |
1 |
0,05 |
0,35 | ||||||
во второй половине |
8 |
6 |
0,235 |
0,188 |
1,255 |
1 |
0,02 | |||||||||
нет |
5 |
10 |
0,147 |
0,313 |
0,471 |
3 |
0,27 | |||||||||
7 |
ОРВИ |
1 триместре |
17 |
5 |
0,500 |
0,156 |
3,200 |
5 |
0,87 |
2,84 | ||||||
2 триместре |
2 |
2 |
0,059 |
0,063 |
0,941 |
0 |
0,00 | |||||||||
3 триместре |
10 |
4 |
0,294 |
0,125 |
2,353 |
4 |
0,31 | |||||||||
нет |
5 |
21 |
0,147 |
0,656 |
0,224 |
7 |
1,65 | |||||||||
8 |
Резус конфликт |
есть |
3 |
1 |
0,088 |
0,031 |
2,824 |
5 |
0,13 |
0,14 | ||||||
нет |
31 |
31 |
0,912 |
0,969 |
0,941 |
0 |
0,01 | |||||||||
9 |
Хронические генитальные инфекции |
есть |
24 |
15 |
0,706 |
0,469 |
1,506 |
2 |
0,21 |
0,51 | ||||||
нет |
10 |
17 |
0,294 |
0,531 |
0,554 |
3 |
0,30 | |||||||||
10 |
Маловодие |
есть |
13 |
9 |
0,382 |
0,281 |
1,359 |
1 |
0,07 |
0,10 | ||||||
нет |
21 |
23 |
0,618 |
0,719 |
0,859 |
1 |
0,03 | |||||||||
11 |
Многоводие |
есть |
17 |
11 |
0,500 |
0,344 |
1,455 |
2 |
0,13 |
0,22 | ||||||
нет |
17 |
21 |
0,500 |
0,656 |
0,762 |
1 |
0,09 | |||||||||
12 |
Преждевременные роды |
есть |
5 |
1 |
0,147 |
0,031 |
4,706 |
7 |
0,39 |
0,42 | ||||||
нет |
29 |
31 |
0,853 |
0,969 |
0,880 |
1 |
0,03 | |||||||||
13 |
Кесарева сечение |
есть |
7 |
2 |
0,206 |
0,063 |
3,294 |
5 |
0,37 |
0,42 | ||||||
нет |
27 |
30 |
0,794 |
0,938 |
0,847 |
1 |
0,05 | |||||||||
14 |
Родостимуляция |
есть |
5 |
2 |
0,147 |
0,063 |
2,353 |
4 |
0,16 |
0,17 | ||||||
нет |
29 |
30 |
0,853 |
0,938 |
0,910 |
0 |
0,02 | |||||||||
15 |
Аномальное предлежание |
есть |
4 |
1 |
0,118 |
0,031 |
3,765 |
6 |
0,25 |
0,27 | ||||||
нет |
30 |
31 |
0,882 |
0,969 |
0,911 |
0 |
0,02 | |||||||||
16 |
Воды грязные |
есть |
16 |
4 |
0,471 |
0,125 |
3,765 |
6 |
1,00 |
1,37 | ||||||
нет |
18 |
28 |
0,529 |
0,875 |
0,605 |
2 |
0,38 | |||||||||
17 |
Отслойка плаценты |
есть |
6 |
2 |
0,176 |
0,063 |
2,824 |
5 |
0,26 |
0,29 | ||||||
нет |
28 |
30 |
0,824 |
0,938 |
0,878 |
1 |
0,03 | |||||||||
18 |
Преждевременные излитие околоплодных вод |
есть |
10 |
1 |
0,294 |
0,031 |
9,412 |
10 |
1,28 |
1,46 | ||||||
нет |
24 |
31 |
0,706 |
0,969 |
0,729 |
1 |
0,18 | |||||||||
19 |
Низкая плацентация |
есть |
8 |
2 |
0,235 |
0,063 |
3,765 |
6 |
0,50 |
0,57 | ||||||
нет |
26 |
30 |
0,765 |
0,938 |
0,816 |
1 |
0,08 | |||||||||
20 |
Сильное шевеление |
есть |
18 |
6 |
0,529 |
0,188 |
2,824 |
5 |
0,77 |
1,18 | ||||||
нет |
16 |
26 |
0,471 |
0,813 |
0,579 |
2 |
0,41 |
В таблице 85 приведены первые 7 признаков, расположенные по мере убывания их и информационной ценности
Таблица 85. Информационная ценность признаков
№ |
7 |
18 |
16 |
20 |
4 |
19 |
9 |
xi |
ОРВИ |
Преждевр. излитие околоплодных вод |
Воды грязные |
Сильное шевеление |
Бесплодие в анамнезе |
Низкая плацентация |
Хрон. генитальные инфекции |
2,84 |
1,46 |
1,37 |
1,18 |
0,59 |
0,57 |
0,52 |
Из этой таблицы видно, что наиболее значимыми признаками послеродовых осложнений являются перенесенные ОРВИ, преждевременное излитие околоплодных вод, сильное шевеление плода и т.д.
Для реализации алгоритма прогноза в данном исследовании были заданы:
α – вероятность ошибки первого рода = 0,05
β – вероятность ошибки второго рода = 0,1
К вероятности α более жесткие требования, поскольку речь идет о том, что ошибочно не будут спрогнозированы послеродовые осложнения.
Тогда
Т.к. по литературным данным послеродовые осложнения достигают до 26% (априорная вероятность), то
Осуществим прогноз для пациентки со следующими признаками:
Таблица 86. Алгоритм прогнозирования
ДК | ||||
ОРВИ |
2,84 |
1 триместр |
5 |
5+5=0 |
Преждевременные излитие околоплодных вод |
1,40 |
нет |
1 |
5+51=1 |
Воды грязные |
1,32 |
есть |
6 |
5+51+6=5 |
Сильное шевеление |
1,18 |
есть |
5 |
5+51+6+5=10 |
Бесплодие в анамнезе |
0,59 |
нет |
1 |
|
… |
… |
… |
… |
… |
Уже на четвертом шаге превышается верхний порог и прогнозируются послеродовые осложнения.