Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
2.28 Mб
Скачать

70

 

 

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

Интервалы

1

2

3

4

5

6

7

8

9

Рис. 3.4.1 Гистограмма ДП «ферменты АСАТ» для паренхиматозной желтухи

Размер выборки (количество больных паренхиматозной желтухой, у которых есть анализ АСАТ) – 248. Признак пациента N попал во 2-й интервал. Высота интервала (число пациентов, у которых признаки попадают в этот же интервал) – 28. Длина интервала 0.52. Плотность вероятности 0.22.

80

 

 

 

 

 

 

 

 

 

 

70

 

 

 

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

11 Интервалы

1

2

3

4

5

6

7

8

9

10

Рис. 3.4.2 Гистограмма ДП «ферменты АЛАТ» для паренхиматозной желтухи

Выборка 257. Признак пациента попал во 2-й интервал. Высота интервала 4. Длина интервала 0.62. Плотность вероятности 0.025.

60

 

 

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

Интервалы

1

2

3

4

5

6

7

8

9

10

91

Рис. 3.4.3 Гистограмма ДП «ферменты АСАТ» для механической желтухи

Выборка 160. Признак пациента попал в 4-й интервал. Высота интервала 21. Длина интервала 0.32. Плотность вероятности 0.41.

100

 

 

 

 

 

 

80

 

 

 

 

 

 

60

 

 

 

 

 

 

40

 

 

 

 

 

 

20

 

 

 

 

 

 

0

2

3

4

5

6

Интервалы

1

 

Рис. 3.4.4 Гистограмма ДП «ферменты АЛАТ» для механической желтухи Выборка 159. Признак пациента попал во 2-й интервал. Высота интервала 87.

Длина интервала 1.22. Плотность вероятности 0.45.

Ниже приведены гистограммы двумерного ДП «АЛАТ-АСАТ».

60

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

6 7

Интервалы

Р7

Р6

 

 

 

 

5

 

Р5 Р4

 

 

3 4

Интервалы

по АСАТ

 

 

Р3 Р2 Р1 1

2

 

по АЛАТ

 

 

 

 

 

 

 

Рис. 3.4.5 Гистограмма двумерного ДП «АСАТ-АЛАТ» для паренхиматозной желтухи

Размер выборки (количество больных паренхиматозной желтухой, у которых есть анализы и АЛАТ и АСАТ) – 248. Признаки пациента N попали во 2-й интервал по АСАТ и во 2-й интервал по АЛАТ. Высота интервала 3. Длина интервала 0.78

92

по АСАТ и 1.0 по АЛАТ. Плотность вероятности 0.015.

40

35

30

25

20

15

10

5

0

Р10 Р9

 

 

5Р 4Р 3Р 2Р 1Р

Р8

Р7

Р6

Интервалы

 

 

 

по АСАТ

Интервалы

1 2 3 4 5 6 по АЛАТ

Рис. 3.4.6 Гистограмма двумерного ДП «АСАТ-АЛАТ» для механической желтухи

Выборка 159. Признаки пациента N попали в 4-й интервал по АСАТ и во 2-й интервал по АЛАТ. Высота интервала 9. Длина интервала 0.32 по АСАТ и 1.22 по АЛАТ. Плотность вероятности 0.144.

Гистограммы рассчитываются отдельно для всех признаков (включая многомерные) каждого пациента при каждой из болезней.

Для построения двумерной гистограммы для паренхиматозной желтухи использовалось 7 интервалов для АСАТ и 7 интервалов для АЛАТ. Только при таком делении размаха признаков данный пациент попадает в интервал с минимальной высотой (не менее определенной величины, согласно правилу 4). Только при таком разбиении мы считаем двумерное распределение представительным и отражающим реальность.

Для одномерных гистограмм признаков АСАТ и АЛАТ количество интервалов – 9 и 11 соответственно.

Таким образом, гистограммы признаков АЛАТ и АСАТ, не объединенных в двумерный признак, могут быть отличны от одномерных сечений гистограммы тех же признаков, объединенных в двумерный признак. Как правило, количество интервалов в гистограммах многомерного признака меньше, чем количество интервалов гистограмм одномерных признаков. Отметим, что для построения

93

«надежного» n-мерного распределения требуется большее количество данных, в n-1 порядков превышающее количество данных при построении «надежного» одномерного распределения. Рассчитанные вероятности (плотности вероятностей) многомерных признаков получаются менее точными, чем вероятности одномерных. Погрешности, возникающие при расчетах, снижают эффект от использования многомерных распределений.

При расчете вероятностей заболеваний используются данные обычных обследований больных, т.е. не полные комплексы признаков и анализов, определенных не в каждый день болезни. Часто возникает ситуация, когда можно построить отдельные гистограммы двух признаков, но статистическая база данных не позволяет построить двумерную гистограмму этих же признаков. Это ограничивает возможность использования многомерных распределений. На данный момент база, собранная из 613 пациентов, позволяет строить многомерные распределения из 2-3 признаков, в редких случаях, из 4-5 признаков.

Неполная, ограниченная база данных приводит к тому, что для построения одномерных гистограмм каждого из двух признаков имеется значительно больше данных, чем для построения двумерной гистограммы тех же признаков. То есть снижается точность вычисления вероятностей двумерного ДП.

3.5Особенности работы со статистической базой данных

Всобранной базе данных для каждого ДП (анализа) указан день, в который ДП определен (день, когда взят анализ). Дни, в которые определены ДП, должны отсчитываться от дня начала заболевания. К сожалению, этот день по истории болезни, в основном, не удается установить, и за день начала заболевания принимается день поступления в больницу. Каждый признак может быть определен (анализ может быть сделан) один или несколько раз, а может быть не сделан вообще

втечение всей болезни.

Отсутствие признака (анализа) в один из дней говорит лишь о том, что он в этот день не определялся. Предложенная методика работоспособна и при отсутствии ДП в некоторые дни и, практически, при любой имеющейся в наличии информации. Но, предполагается, что каждый дополнительный признак, любая новая информация уточняют конечный результат – диагноз.

94

Несмотря на солидный объем собранных данных, остро стоит проблема нехватки или отсутствия статистики для диагностики, для построения распределений. Учет динамики с помощью формулы Байеса требует построения распределения i -го признака для j -й болезни в каждый из дней заболевания. Но,

практически, из-за малого числа анализов приходилось объединять признаки за несколько (2 – 5) дней. При этом определяемое данное может усредняться, а может принимать ближайшее значение к указанному дню.

Здесь очень полезно использовать «распространяемость» признаков. Дело в том, что часть ДП в некоторый период не меняется и, определив ДП, можно использовать его не только в день определения, но и в некоторые другие дни. Так, маркеры, появившись, не меняют свое значение до смерти. Обтурацию желчных путей, расширение холедоха и расширение внутрипеченочных ходов можно распространить на ближайшие пару дней до и после дня определения, а чаще – до операции. Зеленый цвет печени наблюдается как минимум 2 – 3 дня до и после определения. Также можно распространить и многие другие дискретные признаки. Но признаки «боль», «зуд», «увеличение печени» могут меняться ежедневно, поэтому они не распространяются.

Предположить состояние признаков «боль», «зуд» можно и по отсутствию данных. Обычно лечащий врач, записывая историю болезни, регистрирует жалобы больного. Если больной не жалуется на боль или зуд, врач эти данные не записывает. Очевидно, что отсутствие данных – это синоним отсутствия боли и зуда. В диагностирующей программе можно учесть подобные особенности медицинских данных и увеличить размер выборки.

«Хорошим», годным для диагностики, считалось распределение, для которого имелось не менее определенного количества данных статистики. В ином случае существует два варианта.

1)Не использовать при диагностике это распределение и сам признак.

2)Использовать искусственное распределение, построенное не по данным статистики, а в результате опроса эксперта – врача. На основании мнения специалиста, можно создать не очень точные, но весьма полезные распределения признаков (см. раздел 3.3 «Искусственные распределения»).

95

Другой вопрос, который возникает в связи с нехваткой данных: что делать с признаком, значение которого попало в такую «малонаселенную» область статистики, где, согласно гистограмме, вероятность или плотность вероятности равна нулю. Использование нулей в формуле Байеса может привести к абсолютно неверной диагностике. Вероятность болезни, для которой имеет место такое распределение, была бы также равна нулю. Даже, несмотря на то, что другие признаки могли говорить «ЗА» эту болезнь. Изложенное показывает, что плотность вероятности любого признака не должна быть нулевой. Это должно быть какое-то малое число. Про конкретный выбор малого числа можно сказать, что он (выбор) субъективен, слабо влияет на результат, может быть осуществлен экспериментально. В настоящей работе, чтобы избежать проблем с интервалами гистограммы, в которых количество больных нулевое, используются алгоритмы раздела 3.2.2. Без этих алгоритмов для выбора обсуждаемых малых чисел рекомендуется следующее.

Во-первых, должны быть проанализированы распределения признака при разных болезнях. Для одной болезни может отмечаться отсутствие приближенных к значению признака данных, тогда как для другой таких данных может быть достаточно. В этом случае значение признака более характерно для второй болезни, чем для первой. Это отражает реальное состояние в природе. Тогда плотность вероятности первой болезни устанавливается в зависимости от соседнего ненулевого значения плотности. Если данных статистики недостаточно для обеих болезней, то делается вывод, что значение признака не характерно ни для одной из болезней, такого значения признака «в природе не бывает», и признак в диагностике не участвует.

Предусмотрен еще один подход к обработке дискретных признаков. Это переход от рассмотрения признака во множестве дней к одному признаку, для которого динамика не учитывается. Например, переход от признака «боль в разные дни» к признаку «была ли боль». То есть рассматриваются те пациенты, у которых за время болезни хотя бы единожды регистрировалась боль, и вычисляется доля таких пациентов среди всех пациентов. Данный подход уменьшает погрешности распределения, оно становится менее зависимым от лабораторных ошибок, ошибок

96

осмотра пациента (но, конечно, динамика теряется).

3.6Исследование взаимозависимости диагностических признаков

3.6.1Независимые и зависимые диагностические признаки в формуле Байеса

При диагностических расчетах по формуле Байеса распространено грубое приближение: ДП болезни считаются независимыми, хотя в общем случае в едином организме независимость признаков исключена. Независимые ДП это, видимо, слабо зависимые признаки. Не исключена зависимость каждого из этих признаков от какого-либо ДП или зависимость третьего признака от совокупности указанных двух.

Два признака можно считать независимыми, если их линейная корреляция (оцениваемая коэффициентом Пирсона) близка к нулю или подтверждается гипотеза

χ2 (хи-квадрат) о независимости признаков.

Оценить взаимозависимость всего набора признаков не представляется возможным из-за ограниченности статистической базы. В рамках имеющихся данных по механической и паренхиматозной желтухам допустим учет взаимозависимостей трех, редко четырех признаков. Причем для различных видов желтухи (диагностируемых состояний) будут различны степени зависимости одних и тех же диагностических признаков.

Далее рассчитывается взаимозависимость различных признаков в первый день болезни без учета динамики болезней. (То есть рассматриваются признаки «АЛАТ в 1-й день», «АСАТ в 1-й день», «боль в 1-й день», … Остальные дни не рассматриваются). Были проанализированы все пары признаков для обеих болезней с помощью метода χ2 (хи-квадрат) и определения корреляции. Полученные результаты сведены в таблицы взаимозависимостей признаков.

97

Таблица 3.1 Результаты анализа методом χ2 независимости пар ДП при паренхиматозной

желтухе

 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

1

#

+

+

+

+

?

+

+

?

+

+

+

+

?

+

+

+

+

2

+

#

+

+

+

+

?

+

?

?

+

+

+

+

?

+

?

+

+

3

+

+

#

+

+

?

+

+

?

+

+

+

+

?

+

?

+

4

+

+

#

+

?

+

?

?

+

+

?

+

?

?

5

+

+

+

#

+

?

+

+

?

+

+

+

+

?

+

+

+

+

6

+

+

+

+

#

?

+

?

?

+

+

+

+

?

+

?

+

?

7

?

?

?

?

?

?

#

?

?

?

?

?

?

?

?

?

?

?

?

8

+

+

+

+

+

+

?

#

+

?

+

+

+

+

?

+

?

+

9

+

?

+

?

+

?

?

+

#

?

+

?

?

?

+

?

10

?

?

?

?

?

?

?

?

?

#

?

?

?

?

?

?

?

?

?

11

+

+

+

+

+

?

+

?

#

+

?

+

+

+

12

+

+

+

+

+

?

+

?

#

+

+

?

+

+

+

13

+

+

+

+

+

+

?

+

+

?

+

#

?

+

+

+

14

+

+

+

+

+

+

?

+

?

+

+

#

?

+

+

+

+

15

?

?

?

?

?

?

?

?

?

?

?

?

?

?

#

?

?

?

?

16

+

+

+

+

+

+

?

+

?

?

+

+

?

#

+

+

?

17

+

?

?

?

+

?

?

?

?

?

+

+

+

?

+

#

+

?

18

+

+

+

+

?

+

+

?

+

+

+

+

?

+

+

#

+

19

+

+

+

?

+

?

?

?

?

+

+

+

+

?

?

?

+

#

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 3.2

Результаты анализа методом χ2 независимости пар ДП при механической желтухе

 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

1

#

+

+

+

+

+

+

?

?

+

+

+

+

+

+

+

+

?

2

+

#

+

+

+

+

?

?

?

+

+

+

?

+

?

3

+

+

#

+

+

+

?

?

+

+

+

+

+

+

+

+

?

4

+

+

#

+

+

+

?

?

+

+

+

+

+

+

+

?

5

+

+

+

#

+

+

?

+

+

+

+

+

?

6

+

+

+

+

+

#

+

?

?

?

+

+

+

+

+

+

+

?

7

+

+

+

+

+

#

?

?

?

+

+

+

?

+

+

+

?

8

?

?

?

?

?

?

#

?

?

?

?

?

?

?

?

?

?

?

9

?

+

?

?

?

#

?

+

+

+

+

?

?

?

+

?

10

?

?

?

?

?

?

?

?

?

#

?

?

?

?

?

?

?

?

?

11

+

+

+

+

+

+

?

+

?

#

+

+

+

+

+

?

12

+

+

+

+

?

+

?

#

+

+

+

+

?

13

+

+

+

+

+

+

?

+

?

#

+

+

+

+

?

14

+

+

+

+

+

+

?

+

?

+

#

+

+

+

+

?

15

+

+

+

+

+

?

?

?

?

+

+

+

+

#

+

?

+

?

16

+

+

+

+

+

+

?

?

?

+

+

+

+

+

#

+

?

17

+

?

+

+

+

+

+

?

?

?

+

+

+

+

?

+

#

+

?

18

+

+

+

+

+

+

?

+

?

+

+

+

+

+

+

#

?

 

 

 

 

 

 

 

 

 

 

98

 

 

 

 

 

 

 

 

 

Номера строк и столбцов соответствуют нумерации ДП в разделе 3.1. «+» означает, что два признака независимы, «» означает, что признаки зависимы, знак «?» говорит о том, что характер зависимости определить не удалось.

Корреляция двух признаков позволяет количественно определить степень зависимости.

Таблица. 3.3

Корреляции ДП при паренхиматозной желтухе

Таблица. 3.4

Корреляции ДП при механической желтухе

Вычисление корреляции возможно уже при наличии трех значений ДП, но надежность выводов, основанных на малой выборке, недостаточна. Статистически значимые, надежные корреляции ( p <0,05) отмечены жирным шрифтом. Все ДП

99

распределены по нормальному закону.

Для примера анализа полученных данных отметим, что при паренхиматозной желтухе наиболее коррелируют следующие пары ДП: 11 – 12 (билирубин непрямой и прямой, r =0,64), 13 – 14 (ферменты АЛАТ и АСАТ, r =0,55), 13 – 17 (ферменты АЛАТ и альбумин, r =0,86), 17 – 18 (альбумин и возраст, r =0,79) и др.

3.6.2 Экспертная оценка зависимости признаков

Хи-квадрат и корреляция являются статистическими методами оценки взаимозависимостей и представляют собой феноменологическую меру. Для установления причинно-следственной связи между переменными необходимо использовать другие методы.

Экспертная оценка взаимозависимости признаков с учетом причинной связи между ними и патофизиологии была сделана одним из авторов - д. м. н., профессором Г.Г. Устиновым.

Из сравнения полученных тремя методами (хи-квадрат, корреляция, экспертная оценка) таблиц взаимозависимостей признаков видно, что мнение эксперта часто не подтверждает статистические результаты. Исходя из вышеописанных проблем определения взаимозависимостей признаков, более достоверными считаются выводы эксперта. Однако применение лишь экспертных оценок, без учета реально собранной базы данных, может приводить к неадекватным, противоречивым результатам. Поэтому достоверными считаются такие зависимости признаков, которые получены из всех источников и не противоречат друг другу.

3.6.3 Наборы (ядра) независимых признаков

Метод χ2 (хи-квадрат) и экспертные заключения не позволяют

количественно оценить зависимости признаков. Возможна лишь дифференциация пары признаков либо как независимых, либо как зависимых.

Далее, в качестве первого приближения и ввиду недостаточной надежности определения степени взаимозависимости диагностических признаков разделим признаки на абсолютно независимые и абсолютно зависимые. В реальности же, зависимости не настолько категоричны, это показывает корреляция признаков.

100

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение