Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
2.28 Mб
Скачать

По таблицам взаимозависимостей признаков можно для каждой болезни выделить наборы признаков, в которых все признаки будут между собой независимыми.

Так, по таблице 3.1 можно найти максимум 7 взаимонезависимых признаков (независимых при паренхиматозной желтухе). Например, независим в совокупности набор из признаков: 2, 5, 6, 8, 14, 16, 18. Это ДП: кожный зуд, увеличение печени, увеличение селезенки, маркеры, ферменты АЛАТ, сулемовая проба, возраст. В данном наборе все ДП между собой взаимонезависимы. Из таблицы 3.2 находится набор признаков, также состоящий из 7 взаимонезависимых признаков (независимых при механической желтухе). Например, независимы ДП: 1, 4, 7, 11, 14, 17, 18. Это диагностические признаки: боль, расширение внутренних печеночных ходов, зеленый цвет печени, билирубин непрямой, ферменты АЛАТ, альбумин, возраст.

Определим каждый такой набор признаков как «ядро» взаимонезависимых признаков. Очевидно, что в формулу Байеса для независимых признаков должны входить только ядра. Все остальные признаки, не входящие в состав ядра (и соответственно в формулу Байеса), считаются абсолютно зависимыми признаками от ядра. При этом, как уже указывалось, реально таблицы не определяют абсолютно все ядра признаков, а сами признаки внутри ядра не являются абсолютно взаимонезависимыми. Таким образом, возможно существование ядер признаков, которые не могут быть получены из таблиц, но, зависимость которых более близка к определению «абсолютно независимые». Такие ядра не всегда могут быть получены с помощью статистических методов.

Из таблиц взаимозависимостей выделяется множество ядер независимых признаков. Причем для каждой болезни существует собственное множество ядер. По имеющейся статистике выделены ядра – величиной от двух (пара независимых) до семи (максимальное количество взаимонезависимых) признаков. (При количестве ДП в ядре больше двух существует много вариантов ядер, имеющих одинаковое число ДП, но разные наборы признаков.)

У данного подхода имеется существенный недостаток. После определения наилучшего ядра, предполагается, что оно будет использоваться при диагностике

101

каждого пациента. То есть требуется, чтобы набор признаков больного соответствовал признакам ядра. На практике не всегда возможно проведение всех требуемых клинических анализов, биохимических тестов и т.д. Поэтому реальные данные истории болезни часто не удовлетворяют этому требованию. База тестирования, с которой проводились эксперименты для выявления наилучших ядер, тоже имеет не полные наборы данных. В расчете вероятности болезни конкретного больного из базы тестирования участвуют только те признаки, которые были в наличии у этого больного. Набор реальных признаков пациента редко совпадает с ядром.

Использование неполного ядра реальных данных больного нередко становилось причиной ошибок диагностики, в то же время учет других признаков больного, не включенных в ядро, позволял, напротив, получить верный диагноз.

Таким образом, в качестве набора признаков, по которым производится диагностика, следует использовать ядра, выделенные не из всех ДП, а из ДП конкретного больного. Соответственно и база тестирования должна состоять из больных с таким же набором ДП.

102

Глава 4 Учет динамики заболеваний при диагностике

4.1 Методика учета динамики и взаимозависимость диагностических признаков

Согласно изложенной в разделах 2.4.1, 2.4.2 методике в отличие от известных работ для расчетов вероятностей болезней больного по формуле Байеса используются не только диагностические признаки в день поступления пациента больницу, но и в другие дни. Если признак (симптом или анализ) у больного определяется многократно, то для диагностики используются все его значения. Таким образом, учитывается, что распределения признаков при заболевании и признаки пациента меняются в течение болезни, зависят от времени – от числа дней, прошедших с начала заболевания.

мкмоль /л

70

60

50

40

30

20

10

дни

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

Рис. 4.1.1 График диагностического признака (анализа) «билирубин непрямой» пациента N в динамике

На рис. 4.1.1 видно, как изменяется билирубин одного из пациентов со временем. Анализы определялись 7 раз: в 1, 2, 5, 6, 12, 19 и 23-й дни. В остальные дни анализы неизвестны. (Принципиальное отличие авторской методики диагностики состоит в том, что не требуется направлять больного на «недостающий для работы программы» анализ. Программа работоспособна и при отсутствии части ДП, диагноз ставится по той информации, которая имеется в наличии.) Согласно предложенной методике полагается, что билирубин в 1-й день – это один диагностический признак, билирубин во 2-й день – это другой диагностический

103

признак, билирубин в 5-й день – также новый признак и т.д. Все симптомы и анализы выписывались в динамике за 50 дней, следовательно, каждый симптом или анализ теоретически может дать до 50 различных диагностических признаков. Учет динамики позволяет использовать вместо 19 исходных признаков – гораздо больше – до 950 диагностических признаков (50 дней на 19 симптомов). Такой скачок в увеличении данных, по которым рассчитывается диагноз, конечно, теоретический, предельный; реальное увеличение числа используемых ДП меньше, у нас при диагностике желтух число исходных данных повысилось раз в пять, что (как показано в следующих главах) привело к ощутимому преимуществу в диагностике.

Из предложенной методики учета динамики заболеваний практически реализованы первое и второе приближения. (В такой терминологии известные методики, не учитывающие динамику, считаем нулевым приближением.) Первое приближение рассматривает каждое последующее (в другой день) определение одного и того же ДП как определение нового независимого ДП. То есть один и тот же ДП, определенный в два разных дня, понимается как два абсолютно разных и независимых признака.

Вместе с тем, очевидно, что определенные в соседние дни величины одного и того же признака должны (за исключением особых случаев) сильно коррелировать между собой. (В приведенном примере должны коррелировать ДП в 1 и во 2-й дни, в 5 и в 6-й дни, в 21 и в 22-й дни и т.д.). Естественно, что два анализа, два определения в соседние (близкие) дни одного и того же признака взаимозависимы. Но чем больше проходит дней между двумя анализами, тем меньшая связь между ними наблюдается. Это обусловлено возрастающим влиянием на ДП разных факторов (лечения, развития болезни и др.) в интервале между анализами.

Высказанные соображения иллюстрируются данными двух следующих рисунков.

104

1.00

0.80

0.60

0.40

0.20

дни

0.00

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

Рис. 4.1.2 График корреляции признаков «АЛАТ в n-й день» от «АЛАТ в 1-й день» при паренхиматозной желтухе

Корреляция д. признака АЛАТ "от первого дня"

1.00

0.80

0.60

0.40

0.20

дни

0.00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Рис. 4.1.3 График корреляции признаков «АЛАТ в n -й день» от «АЛАТ в 1-й день» при механической желтухе

На графике 4.1.2 показано, как меняется корреляция признаков (анализов) «ферменты АЛАТ» во все дни от признака «АЛАТ в 1-й день» при паренхиматозной желтухе. ДП «АЛАТ во 2-й день» сильно зависим от анализа «АЛАТ в 1-й день», коэффициент корреляции “ r ” равен 0,78. Зависимость АЛАТ в 3-й день от АЛАТ в 1-й день уже не столь явная: r =0,56. Начиная с 4-го дня зависимость – слабая,

105

r <0,4.

При механической желтухе зависимости признаков несколько иные – график 4.1.3. Корреляция признаков «АЛАТ во 2-й» и «АЛАТ в 1-й день» при механической желтухе менее выражена, чем при паренхиматозной, r =0,48. Зависимость «АЛАТ в 1-й день» и «АЛАТ в 3-й день» практически отсутствует, r =0,2. Но на 5-й день корреляция вновь сильна: признаки АЛАТ в 1-й день и АЛАТ в 5-й день сильно зависимы, r =0,83. Однако, в среднем, и при механической желтухе с увеличением интервала корреляция ослабевает.

При диагностике, включая расчеты вероятностей болезней по формуле Байеса, следует учитывать взаимозависимость всех признаков, в том числе и взаимозависимость одноименных (одних и тех же) симптомов или клинических анализов, определенных в соседние дни. Учет взаимозависимости ДП позволяет при диагностике правильно использовать данные о их динамике (данные многократных определений ДП). Более того, учет взаимозависимости ДП является ключом решения проблемы использования многократно определяемых (или повторно определяемых), а также дублирующих диагностических признаков. Под дублирующими ДП понимаются сильно зависимые признаки, в том числе такие, которые являются, скорее, контрольными. Модель предельного случая дублирующих ДП – измерение температуры иным термометром. Покажем важность проблемы использования многократно определяемых признаков на примере. Пусть какой-либо диагностический признак изменяется медленно: его изменение заметно лишь по прошествии дней. Если такой признак измерять (в какой-либо день) каждую минуту, то следующее измерение будет зависеть от предыдущего и даже повторять, дублировать его. Такие повторные измерения не добавят существенно новой информации. В то же время, в силу особенностей формулы Байеса и при принятом использовании диагностических признаков как независимых, многократно (повторно) определенные диагностические признаки повлияют на диагностику. Диагностика даже может из правильной стать неверной. (Если ДП «влияет в сторону неверного диагноза», но это влияние компенсируется другими ДП, то многократное повторное определение данного признака приведет к изменению диагноза на неверный.) Эта проблема более подробно рассмотрена в следующем параграфе.

106

4.2 Диагностика при многократном определении признака

Нередко симптомы, результаты анализов и инструментальных методов исследования больного противоречивы: среди них существуют признаки, которые оспаривают диагноз. Рассмотрим набор симптомов, клинических анализов и данных инструментальных обследований пациентки N.

Признак/день

1

4

7

Боль

+

 

 

Кожный зуд

-

 

 

Расширение холедоха

-

 

 

Увеличение печени

-

 

 

Увеличение селезенки

-

 

 

Зеленый цвет печени

-

30.00

14.00

Билирубин непрямой

38.00

Билирубин прямой

94.00

50.00

27.00

Ферменты АСАТ

1.10

0.80

0.70

Ферменты АЛАТ

2.10

2.80

2.20

Сулемовая проба

2.00

1.90

1.80

Возраст

74.00

 

 

Пол

Ж

 

 

Здесь «+» – ДП положительный, «–» – ДП отрицательный.

Пациентка болела механической желтухой и от нее была вылечена. Программа диагностики на основании вышеприведенных реальных данных пациентки (только тех, что имеются в наличии) поставила компьютерный диагноз «механическая желтуха».

Вероятность механической желтухи, рассчитанная по формуле Байеса, по диагностическим признакам первого дня обследования составила 0,95; по ДП первого и четвертого дней – 0,96, по ДП всех дней (первого, четвертого и седьмого) – 0,94. (В данном случае включение в исходные данные динамики ДП не привело к повышению точности диагностики. Это не противоречит выводу о повышении правильности диагностики с учетом динамики. Вывод подтвержден в среднем, а у конкретного больного не проявился, скорее всего, из-за сравнительно более подробного обследования в первый день).

Чтобы яснее понять «аргументы» методики и программы при постановке диагноза проводятся оценки влияния каждого ДП на постановку диагноза, так сказать, «аргументы в пользу болезни». Оценки влияния отдельных ДП на вероятность каждой болезни проводились по методике, изложенной в разделе 2.6.3;

107

осуществлялась оценка (диагностика) только по одному ДП без участия остальных признаков.

Рассчитанные «оценки влияния» ДП показали, что диагноз «механическая желтуха» поставлен в значительной мере из-за возраста больной, оценочная степень влияния – 14 раз. Большой вклад в диагностику внесла информация о ДП «ферменты АЛАТ», «ферменты АСАТ», «билирубин» и др.

Перейдем к ДП, свидетельствующим против правильного диагноза (против механической желтухи). Из таких ДП «самым сильным» для данной пациентки является отсутствие признака «расширение холедоха». Положительное значение признака встречается в 15 раз чаще у больных механической желтухой, чем у больных паренхиматозной. Отрицательное – в 6 раз чаще при паренхиматозной желтухе. У приведенной больной этот ДП – отрицательный – холедох не расширен, что говорит не в пользу диагноза. Оценка степени влияния этого ДП «против диагноза» – 6 раз.

Признак «расширение холедоха» определялся один раз, в 1-й день. В данном разделе исследуется влияние многократного определения ДП на диагноз. Для этого исследования полезно рассмотреть искусственное увеличение числа наблюдений ДП «расширение холедоха». Будем считать, что холедох не расширен и в последующие дни. Эти искусственные данные вполне возможны: холедох не был расширен в день поступления в больницу, и на фоне лечения отсутствие расширения могло сохраниться. Если использовать эту информацию в программе, то компьютерный диагноз на третий день болезни будет следующим: «механическая желтуха» с вероятностью 0,89. То есть, если дополнительно использовать отрицательное значение ДП «расширение холедоха» во 2 и 3-й дни, диагноз изменится на «неопределенный». Если же учитывать значение признака и в последующие дни, то на 10-й день диагноз из неопределенного станет неверным. При искусственном распространении отрицательного значения ДП «расширение холедоха» на 11, 12-й день и т.д., вероятность верного диагноза будет приближаться к нулю, неправильного – к единице. Данный пример иллюстрирует, что неизменный ДП нужно использовать один раз.

Очевидно, что чем больше проведено измерений одного признака в течение

108

всей болезни, тем сильнее он (если его измерения рассматривать как совокупность разных и независимых признаков) влияет на результат диагностики.

Рассмотрим повторные измерения признака, который мало меняется или даже не изменяется определенное время. Например (точнее, в гипотетическом нереальном примере), тест на АЛАТ можно проводить несколько раз через каждые 5 минут. Результат будет практически неизменен, и повторное измерение признака новой информации для диагностики не даст. В этой ситуации нельзя каждое измерение воспринимать как новый признак, так как исследуемые новые измерения признака сильно (абсолютно) зависимы от предыдущих измерений.

Согласно предлагаемой методике при сильной взаимозависимости ДП, в том числе при сильной зависимости повторно определенных величин одноименного ДП от первично определенной величины, необходимо учитывать эту взаимозависимость (условную вероятность или степень зависимости одного относительно другого). При недостатке данных (когда корреляцию и условную вероятность нельзя достоверно определить) стоит воспользоваться предложенным «вторым приближением», состоящим в усреднении близких по времени результатов определения ДП. Усредняются величины ДП, что представляется предпочтительным по сравнению с усреднением плотностей вероятностей ДП. (Предпочтительность усреднения величин ДП особенно наглядна в случае, когда два ДП находятся «по разные стороны» от математического ожидания: первично определенный ДП больше, а повторно определенный меньше математического ожидания.) Заметим, что в силу погрешностей измерений, первично и повторно определенные значения признака не будут абсолютно равными, и усреднение повысит достоверность величины ДП. (О применении аналогичного усреднения для построения распределений при отсутствии достаточной статистической базы говорилось выше, в разделе 3.5.)

Другой путь учета динамики (использования многократных измерений ДП) состоит в построении многомерного распределения из многократно определенных признаков. При этом в диагностике вместо комплекса одномерных повторных признаков используется один многомерный признак. Так как значения повторных признаков близки, то в получившейся многомерной таблице все пациенты будут распределены вблизи диагонали.

109

Для каждой болезни и для каждого признака можно определить характерные интервалы дней, в течение которых анализы неизменны. Например, признак «маркеры» для обеих болезней неизменен длительное время с момента его появления. Повторные измерения признака в острый период болезни абсолютно зависимы между собой, не дают новой диагностической информации, поэтому «маркеры» усредняются в один признак из всех 10 рассматриваемых дней. К аналогичным «признакам» можно отнести возраст и пол. Для других признаков более сложно определить характерные интервалы «постоянства» значений признаков. По крайней мере, можно усреднить признаки за наименьший характерный интервал дней из двух болезней.

Возникает задача по определению характерных для каждой болезни и каждого признака интервалов дней, в течение которых величина признака не меняется, постоянна. (Повторим, что представлять многократные измерения признака как один признак рационально тогда, когда результаты многократных измерений признака сильно взаимозависимы.) Существуют признаки (дискретные), для которых определение таких интервалов не вызывает затруднений. Определить эти интервалы может медик – эксперт. Для других ДП указанные интервалы могут быть определены с использованием корреляционной матрицы каждого признака за все 10 дней.

Таблица 4.1 Корреляционная матрица признака «билирубин прямой» за 10 дней.

Значения коэффициента корреляции для некоторых соседних дней не значимы, что является результатом малого количества данных, на основании

110

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение