Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

6 курс / Клинические и лабораторные анализы / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л

.pdf
Скачиваний:
0
Добавлен:
24.03.2024
Размер:
2.28 Mб
Скачать

вероятной болезни p j max = max{p j ,j =1,2,3,...,n}, с учетом этого, до проведения k-

го анализа

Z = pnewj Z j ,D .

(2.5.8)

j

 

В формуле (2.5.8) использованы вероятности pnewj , а не p j потому, что

истинным считается распределение pnewj , и именно так распределенных больных до анализа k лечили неверно – по диагнозу D . Обратим внимание, что в формуле (2.5.8) Z вычислена именно по старому диагнозу D . То есть исходим из того, что до проведения k-го анализа и распределение p j и лечение, в общем случае,

неверны. После проведения анализа k диагнозом Dnew будем считать болезнь, у которой вероятность максимальна.

 

max{pnew( a

ok

),j =1,2,3,...,n}.

 

 

 

(2.5.9)

 

j

 

 

 

 

 

 

 

 

Величина Z new для дискретного симптома или анализа aok найдется как

Z new = cokmax Q ( a

ok

)pnew( a

ok

)Z

j ,D

new .

(2.5.10)

k

k

 

 

j

 

 

 

 

cok min

 

 

 

j

 

 

 

 

 

Здесь: Zknew – значение Z после проведения k-го анализа (после определения k-го ДП);

Z j ,D new – элементы матрицы B , точнее, столбец B , номер которого

соответствует наиболее вероятной болезни – диагнозу Dnew . В формуле (2.5.10)

подразумевается, что aok

пробегает все свои дискретные значения от минимального

aok min до максимального aok max .

 

 

 

Для непрерывных ДП

 

 

 

aok max

 

( aok )Z j ,Dnew daok .

 

Zknew =

Qk ( aok )pnewj

(2.5.10а)

aok min

j

 

 

61

После вычисления Zknew по вышеприведенным формулам1 вычислим эффективность проведения анализа k как разность:

Z( k ) = Zknew Z = f ( k ).

(2.5.11)

Далее аналогичные вычисления выполняются для всех k анализов, симптомов, данных инструментальных обследований. И, наконец, искомые симптом или анализ

или инструментальное обследование x определяется как номер ДП, при котором

Zk максимальна.

 

x = k{max[Zk k =1,2,3,..., y]}.

(2.5.12)

(Напомним, что номер x получен при лечении по первому принципу2)

 

Анализ x является рекомендуемым. После его выполнения он переходит в число известных анализов i,1 i mnew , где mnew = m +1.

Вместе с тем, кроме рекомендуемого анализа стоит рассмотреть и остальные анализы k. Как минимум, стоит о них сообщить врачу – выдать результаты расчета – список анализов k в порядке уменьшения Zk с указанием величины Zk .

Напомним, что согласно [25, 26], травматичность анализа входит в величину Z .

1 В формуле (2.5.10а) p j ,j = 1,2,3,...,n удобно также представить как вектор PG( aok ) . Обнулим в этом векторе все координаты, кроме

максимальной, являющейся диагнозом. Новый вектор назовем Po ( a

ok

). С учетом этих обозначений формула (2.5.10а) запишется в виде

 

 

 

 

 

 

Д

 

 

 

new

=

aok max

 

Gо

G

 

 

 

 

Zk

Qk ( aok )B × PД ( aok

) Edaok ,

(2.5.10б)

 

 

 

aok min

 

 

 

 

 

 

где EG - единичный вектор размерностью n . Аналогично перепишется формула (2.5.10). Идеальное лечение по 3-му принципу запишется в виде

 

new

 

aok max

d

G

G

 

 

 

 

=

Qk ( aok )B

 

 

 

 

Zk

 

× P( aok

) Edaok .

(2.5.10в)

 

 

 

aok min

 

 

 

 

 

 

Здесь Bd

- диагональная матрица, полученная из матрицы B обнулением недиагональных элементов, т.е. элементов, у которых i j .

2 Отметим, что алгоритм определения эффекта идеального лечения (по третьему принципу) сложнее, чем алгоритм эффекта от лечения по наиболее вероятному диагнозу. Это видно на примере. Пусть 100 пациентов больны тремя болезнями с распределением:

Номер болезни

j = 1

j = 2

j = 3

Число больных

10

50

40

(По третьему принципу каждый больной лечится от той болезни, которой он болен. По первому принципу все лечатся по диагнозу, в данном случае диагноз D определяется по наиболее вероятной, 2-й, болезни.)

После проведения следующего анализа распределение приобрело вид:

Номер болезни

j = 1

j = 2

j = 3

Число больных

20

15

65

Как видно по приведенным таблицам, 10 больных болезнью j=1 ранее лечились неверно. Для определения эффекта диагностики нужно указать (нужно знать) как ранее лечились эти пациенты. В данном примере они могли лечиться от болезни j=2 или j=3. Рационально считать, что

они лечились по варианту с наибольшим Z . Т.е. расчет идет по варианту (принципу) наименьшего эффекта, наименьшего δZ .

Перейдем к болезни j=2. До искомого уточняющего анализа лечение 35 пациентов от этой болезни было ошибочным. От какой болезни эти пациенты лечатся после уточняющего анализа? На этот вопрос, в общем случае, нет единственного ответа. Чтобы ответ был единственным, нужно опять привлечь дополнительные предположения, например, принцип наименьшего эффекта уточняющего анализа.

62

Однако, возможны и иные аргументы по выбору не оптимального, а близкого к нему анализа или по выбору не одного, а группы анализов [25, 26].

Вработах [25, 26] поставлены и рассмотрены задачи о выявлении неверного анализа (о проверке анализа) и о повторении анализа.

Врамках изложенного выше варианта методики задача о выявлении неверного анализа решается так. Из уже выполненных анализов по очереди исключаются анализы или их группы, и для них выполняется описанная выше процедура поиска наиболее необходимого анализа.

Вчастном случае, при конкретных подозрениях о возможной ошибочности анализа, последний удаляется из выполненных анализов. По формуле полной вероятности находится его ожидаемая величина.

 

 

 

 

acoii = pl =

ai max

 

 

 

 

 

 

 

 

 

ai q( ai )dai ,

 

 

(2.5.13)

 

 

 

 

 

 

ai min

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

q( ai ) = p j q j ( ai ).

 

 

(2.5.14)

 

 

 

 

 

 

j

 

 

 

 

 

При данном a pl находится pnew

по Байесу или другому методу.

 

 

 

oi

 

 

 

j

 

 

 

 

 

 

 

aoii = pl + aoi

i =1,2,3,...,m,m 1, i plpnewj .

(2.5.15)

После этого переобозначаем

p j

= pnewj

и циклически повторяем вычисления

по формулам (2.5.13) – (2.5.15) до установления a pl и p

j

.

 

 

 

 

 

 

 

 

 

oi

 

 

 

Найденные a pl и

p

 

3 наглядно иллюстрируют причины и необходимость

 

oi

 

j

 

 

 

 

 

 

 

перепроверки

анализа

i = pl .

Саму же

перепроверку осуществляют

при

рекомендации,

основанной

 

на изменении критерия

Z . Например,

если

после

исключения подозрительного анализа величина Z (полученная по описанной выше методике) изменилась существенно, стоит перепроверить анализ.

Вопрос о повторении анализа решается аналогично выявлению анализа, который наиболее нужно сделать. Отличие состоит только в следующем. Вероятность повторного анализа i вычисляется с учетом предыдущих анализов i .

3 Точнее, сравнение этих величин с проверяемыми величинами анализов и с получавшимися вероятностями болезней.

63

Для одних обследований вероятности повторных анализов не отличаются от первичных, для других – отличаются. Повторим здесь пример, приведенный в предыдущих публикациях [2.5.1, 2.5.2]. Если в организме есть глисты (или простейшие, или патогенная флора), то при повторных анализах вероятность их обнаружения повышается. Повышается надежность (т.е. вероятность) обнаружения и не обнаружения патологических изменений в биопсии и т.п.

Таким образом, при выяснении, какой следующий анализ сделать, рассматриваются: еще не сделанные анализы и уже сделанные. Для последних выясняется необходимость их повторения как для контроля (для исключения случайных ошибок), так и для повышения надежности.

Возникает естественный вопрос о продолжении или остановке процесса определения следующего анализа. Если число анализов не исчерпано, то разумно сформулировать критерии прекращения процесса поиска анализа x . (Кстати, если число анализов исчерпано, а упомянутые критерии не выполнены, то это заставляет задуматься о полноте набора используемых анализов или болезней).

Для ветеринарии в некоторых случаях критерии могут быть разработаны, исходя из стоимости анализов и прибыли от излечения. Критерии, предлагаемые ниже, не связаны с ценами. В качестве необходимых условий остановки поиска следующего анализа предложим соотношения

pnewj

p j

 

≤ εp ,

(2.5.16),

 

 

 

 

p j

j

 

 

 

Z ≤ εZ .

 

(2.5.16а).

Неравенство (2.5.16) отражает стабилизацию процесса уточнения диагноза,

(2.5.16а) показывает, что эффективность дополнительных анализов стала низкой. Поскольку Z имеет размерность времени, можно подумать о рациональных значениях Z . Эти значения не стоит выбирать меньше нескольких дней. Другим ограничением минимального значения Z и других критериев является точность вычислений Z ,p j и других величин.

Достаточные условия окончания расчетов могут быть получены сравнением со здоровым человеком:

64

Z new Z

11

≤ εz .

(2.5.16б)

Z11

 

 

 

 

Здесь Z11 – величина Z для здорового человека, т.к. первый индекс 1 матрицы B

относится к отсутствию болезней, а второй индекс 1 – к лечению в случае нормального здоровья.

Другое достаточное условие - высокая точность диагностики

 

(1 max p j ) < εp .

(2.5.16в).

Ряд критериев может быть получен сравнением с оптимальным лечением по предложенным выше 2-му и, главное, 3-му принципам лечения.

Более жестким и точным является требование выполнить условия (2.5.16) - (2.5.16в) в нескольких, например, трех последовательных расчетах x , причем анализ x , найденный в части этих расчетов, например в двух расчетах, должен быть реализован.

Данная стратегия выбора следующего анализа уменьшает не только число проводимых (выполняемых) анализов, но и сокращает время обследования, время постановки диагноза, что иногда принципиально важно. Приведенный выше алгоритм сводит к минимуму субъективный фактор как при назначении следующего анализа, так и при диагностике.

После небольшой модификации данная методика может быть использована и в других областях медицины, а также в управлении, экономике и др. Например, может быть решена задача оптимального распределения дотаций на лечение. Дотации могут быть распределены по болезням так, чтобы общая жизнеспособность – количество и качество жизни населения выросли наибольшим образом. При этом для заразных болезней нужно учесть не только влияние лечения на больного, но и следствия заражения окружающих.

Один из вариантов решения состоит в следующем. Варьируемыми параметрами выбрать суммы, отпускаемые на лечение одного больного каждой болезнью. Функцией цели – max Z , где Z увеличение вследствие лечения количества и качества жизни больного и людей, находящихся в контакте с ним. При решении необходимо учесть ограничение на общую сумму финансирования.

65

Методами нелинейного программирования (параметрической оптимизации) эту задачу можно решить.

2.6Оценка результатов диагностики

2.6.1Уровень надежности и неопределенный диагноз

Результатом байесовской диагностики каждого пациента являются вероятности каждой болезни (формула 2.4.1). Сумма вероятностей равна единице. По рассчитанным вероятностям ставится диагноз. Если вероятность 1-й болезни

( p1) не ниже вероятности 2-й болезни ( p2 ), то диагнозом может считаться 1-я

болезнь. (Формально более точное определение дано ниже и включает случай равенства вероятностей, но на практике равенства вероятностей в реальных расчетах не бывает.)

 

 

pj - вероятность j-й болезни

pj, %

 

- 1-я болезнь

 

- 2-я болезнь

 

 

 

 

 

 

 

 

 

 

100

 

 

 

80

94%

 

85%

 

 

 

60

 

 

 

40

 

51%

 

20

 

 

 

0

6%

49%

15%

 

Диаграмма А

Диаграмма В

Диаграмма С

90% Уровень надежности

Рис. 2.6.1. Примеры результатов диагностики трех пациентов

 

Рассмотрим

гипотетический случай

(пример В на рис. 2.6.1):

p1 = 51% ,

p2 = 49% . Здесь

вероятности болезней

практически не различимы

и делать

категорический вывод, по нашему мнению, нельзя. В другом случае (пример А): p1 = 94% , p2 = 6% , можно более уверенно дать ответ.

Если вероятность одной из болезней не только не ниже вероятностей других болезней, но и превышает установленный заранее «уровень надежности диагноза»,

66

то выбор делается в пользу этой болезни. Установим уровень надежности, равный 90%. Для примера А мы получаем диагноз – болезнь 1, для примеров В и С – диагноз неопределенный, то есть программа отказывается сделать выбор в пользу 1-й болезни и требует больше данных. Такой подход к оценке вероятностей позволяет перевести часть неправильно поставленных диагнозов в область неопределенных ответов. Одновременно часть правильных диагнозов также становятся неопределенными (как в примере С). Представляется, что важнее сделать меньше ошибок в диагнозе, чем большему числу пациентов поставить верный диагноз.

2.6.2 Критерий эффективности диагностики

Методы, алгоритмы и программы математической диагностики, в частности,

диагностики заболеваний тестируются на базах данных, например, на группе (G)

больных с точно установленными заболеваниями.

G={1,2,3,...,k,...,g}.

Визвестных авторам работах в качестве критерия эффективности диагностики используется процент верных диагнозов. Под верным диагнозом понимается математически (компьютерно) поставленный диагноз, совпадающий с диагнозом, поставленным данному больному медиками.

Вместе с тем, по тем же самым результатам математической диагностики можно более объективно оценить эффективность используемого метода диагностики. Пусть в результате расчета найдены вероятности болезней k -го

больного из группы G : Pkj =1,2,3,...,n, где j – номер болезни, n – число

диагностируемых болезней. Считаем, что каждый больной болен только одной болезнью и что применяемый метод диагностики рассчитывает вероятности всех болезней, которые имеются у больных данной группы G.

Например, в группе G имеются больные двумя болезнями ( n = 2) j =1 и j = 2 . Тогда для k -го больного вычисляются pk1 (т.е. вероятность первой болезни pkj =1) и pk 2 (т.е. вероятность второй болезни pkj =2 ); в иных обозначениях,

67

вычисляется вектор вероятностей болезней

 

k

=( pk1 , pk 2 )pkj =1. (Как и ранее,

p

 

 

 

 

 

j

суммирование

по параметру обозначается одним нижним индексом:

j =n

k =n

 

 

 

 

=

, = .)

 

j =1 j

k =1

k

 

Номер болезни, которой каждый пациент действительно болен, обозначим jtr( k ). Вероятность (расчетная) этой болезни для k -го больного соответственно имеет обозначение p jtr( k ) . Критерием эффективности предлагается выбрать величину

CE =

1

pkjtr ,

(2.6.1)

g

где g – число больных в группе G .

k

 

 

 

 

Приведем условный пример

оценки эффективности

двух методов

диагностики. Эти методы обозначим как M1 и M 2 , а применение этих методов к больным группы (базы) G как M ( G ). То есть M ( G ) – это расчет вектора вероятностей болезней для каждого из пациентов группы G . Пусть G состоит из двух больных k =1 и k = 2, которые на самом деле больны болезнью j =1, т.е. jtr =1. G ={1,2 | jtr =1}. Пусть также M1( G ), т.е. применение первого метода диагностики для группы больных G, привело к следующим результатам:

для больного k =1: pkj = p11 = 0,49; pkj = p12 = 0,51;

для больного k =2: pkj = p21 = 0,99; pkj = p22 = 0,01.

Очевидно, что расчетным диагнозом считаем болезнь, вероятность которой не меньше, чем у других болезней. Если таких болезней - диагнозов не одна, то среди них диагноз определяется случайным образом.

В приведенном выше расчете метод M1 диагностировал у больного 1 болезнь j =2, поскольку расчетная вероятность 2-ой болезни больше, чем 1-ой: p12 = 0,51 > p11 = 0,49. Этот диагноз неверен, т.к. в действительности больной страдает болезнью 1: jtr(1) =1. У больного 2 вероятность 1-й болезни выше, чем

68

вероятность 2-й: p21 = 0,99 >

p22 = 0,01, т.е. расчетом диагностируется 1-я

болезнь. Это верно, т.к. принято

jtr( 2 ) =1.

При обычном подходе эффективность диагностики 50%: у одного больного правильный диагноз, у второго - неправильный. Критерий CE по формуле (2.6.1)

CE( М1 ) = 12( 0,49 +0,99 ) =0,74, или 74%.

Примем теперь, что по методу M 2( G ):

для больного k =1: pkj = p11 = 0,01; pkj = p12 = 0,99;

для больного k =2: pkj = p21 = 0,99; pkj = p22 = 0,01.

Метод M 2 , так же как метод M1, неверно диагностировал больного 1 и верно больного 2. При обычном подходе эффективность диагностики 50% - такая же, как у

M1. Критерий CE по формуле (2.6.1)

 

 

 

 

 

 

 

 

CE( М2 ) =

1

( 0,01+0,99 ) =0,5, или 50%.

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

Для удобства рассматриваемые вероятности болезней выражены в процентах

и сведены в таблицу.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 2.1

 

Вероятность болезней, %

больной k =2

 

 

 

Обычная

k

 

больной k =1

 

CE

 

оценка

j (болезнь)

 

1

 

2

1

2

 

 

диагностики

медицинский диагноз (jtr)

100* ( jtr )

0

100* ( jtr )

0

 

1

 

1

M1( G )

 

49 ( jtr )

51

99* ( jtr )

1

 

0,74

 

0,50

M 2( G )

 

1 ( jtr )

99

99* ( jtr )

1

 

0,50

 

0,50

* - отмечены вероятности

болезни, считающейся диагнозом ( p >50%);

обозначение

( jtr ) - напоминает, что больной на самом деле болен этой болезнью.

Сравнивая

эффективность

методов

M1 и M2 ,

видим,

что CE(M 2 )

существенно меньше, чем CE(M1 ). Разберемся почему. Оба метода неверно ставят диагноз больному 1. Первый метод вероятность правильной болезни указывает 49%.

Это неверно, но до правильного диагноза «не хватает» чуть более 1%. M2

вероятность правильной болезни определил как 1%, что очень далеко от

69

действительности. Т.е. M2 хуже, чем M1. CE учитывает разницу в диагностике:

CE(M1 ) > CE(M 2 ). Обычный подход указанной разницы «не чувствует».

Для полноты анализа можно конкретизировать CE . Так, кроме общего CE

можно вычислить CE для каждой болезни

отдельно. Поясним это. В

рассмотренном примере группа G состоит из больных одной болезнью. Но группа

может

состоять и из больных разными болезнями

G G j , где

j =1,2,3,...,n;

G j

подгруппа из больных одной болезнью.

G j

={1,2,3,...,k ,...,g j }, G j =G ,

 

 

 

 

j

g j

= g . Для каждой подгруппы можно

вычислить CE j ,

который будет

j

 

 

 

 

характеризовать эффективность метода при диагностике одной болезни. Собственно, в приведенном примере рассматривался CE диагностики одной болезни j =1.

Аналогично можно выделить подгруппу, имеющую определенный набор симптомов, и вычислить CE для этой подгруппы. Из последней подгруппы можно выделить ее часть, относящуюся к одной болезни, и вычислить CE для этой части.

2.6.3 Влияние отдельного ДП на диагноз

Интересно проанализировать, как отдельные ДП или их группы влияют на диагноз. Говоря нестрого, диагноз – это наиболее вероятная болезнь, и ставится диагноз сравнением вероятностей рассматриваемых болезней. Расчетные вероятности болезней зависят от всех ДП, и весьма интересно выяснить, как на расчетную вероятность каждой болезни повлияло наличие каждого диагностического признака, какой вклад в повышение или уменьшение вероятности болезни внес анализируемый ДП.

Оценку влияния ДП на вероятность можно провести множеством способов. Приведем один из способов оценки, согласно которому кроме вероятности болезни p j вычисляется pij. pij– вероятность болезни, рассчитанная при отсутствии i -го

ДП, влияние которого анализируется. Комбинации p j и pijмогут быть базой для многих оценок влияния ДП. Например, отношение

70