6 курс / Клинические и лабораторные анализы / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л
.pdfвероятной болезни p j max = max{p j ,j =1,2,3,...,n}, с учетом этого, до проведения k-
го анализа
Z = ∑ pnewj Z j ,D . |
(2.5.8) |
j |
|
В формуле (2.5.8) использованы вероятности pnewj , а не p j потому, что
истинным считается распределение pnewj , и именно так распределенных больных до анализа k лечили неверно – по диагнозу D . Обратим внимание, что в формуле (2.5.8) Z вычислена именно по старому диагнозу D . То есть исходим из того, что до проведения k-го анализа и распределение p j и лечение, в общем случае,
неверны. После проведения анализа k диагнозом Dnew будем считать болезнь, у которой вероятность максимальна.
|
max{pnew( a |
ok |
),j =1,2,3,...,n}. |
|
|
|
(2.5.9) |
|||
|
j |
|
|
|
|
|
|
|
|
|
Величина Z new для дискретного симптома или анализа aok найдется как |
||||||||||
Z new = cok∑max Q ( a |
ok |
)∑ pnew( a |
ok |
)Z |
j ,D |
new . |
(2.5.10) |
|||
k |
k |
|
|
j |
|
|
|
|||
|
cok min |
|
|
|
j |
|
|
|
|
|
Здесь: Zknew – значение Z после проведения k-го анализа (после определения k-го ДП);
Z j ,D new – элементы матрицы B , точнее, столбец B , номер которого
соответствует наиболее вероятной болезни – диагнозу Dnew . В формуле (2.5.10)
подразумевается, что aok |
пробегает все свои дискретные значения от минимального |
|||
aok min до максимального aok max . |
|
|
|
|
Для непрерывных ДП |
|
|
|
|
aok max |
|
( aok )Z j ,Dnew daok . |
|
|
Zknew = |
∫Qk ( aok )∑ pnewj |
(2.5.10а) |
||
aok min |
j |
|
|
61
После вычисления Zknew по вышеприведенным формулам1 вычислим эффективность проведения анализа k как разность:
∆Z( k ) = Zknew − Z = f ( k ). |
(2.5.11) |
Далее аналогичные вычисления выполняются для всех k анализов, симптомов, данных инструментальных обследований. И, наконец, искомые симптом или анализ
или инструментальное обследование x определяется как номер ДП, при котором |
|
∆Zk максимальна. |
|
x = k{max[∆Zk k =1,2,3,..., y]}. |
(2.5.12) |
(Напомним, что номер x получен при лечении по первому принципу2) |
|
Анализ x является рекомендуемым. После его выполнения он переходит в число известных анализов i,1 ≤ i ≤ mnew , где mnew = m +1.
Вместе с тем, кроме рекомендуемого анализа стоит рассмотреть и остальные анализы k. Как минимум, стоит о них сообщить врачу – выдать результаты расчета – список анализов k в порядке уменьшения ∆Zk с указанием величины ∆Zk .
Напомним, что согласно [25, 26], травматичность анализа входит в величину Z .
1 В формуле (2.5.10а) p j ,j = 1,2,3,...,n удобно также представить как вектор PG( aok ) . Обнулим в этом векторе все координаты, кроме
максимальной, являющейся диагнозом. Новый вектор назовем Po ( a |
ok |
). С учетом этих обозначений формула (2.5.10а) запишется в виде |
|||||||
|
|
|
|
|
|
Д |
|
|
|
|
new |
= |
aok max |
|
Gо |
G |
|
|
|
|
Zk |
∫Qk ( aok )B × PД ( aok |
) Edaok , |
(2.5.10б) |
|||||
|
|
|
aok min |
|
|
|
|
|
|
где EG - единичный вектор размерностью n . Аналогично перепишется формула (2.5.10). Идеальное лечение по 3-му принципу запишется в виде |
|||||||||
|
new |
|
aok max |
d |
G |
G |
|
|
|
|
= |
∫Qk ( aok )B |
|
|
|
||||
|
Zk |
|
× P( aok |
) Edaok . |
(2.5.10в) |
||||
|
|
|
aok min |
|
|
|
|
|
|
Здесь Bd |
- диагональная матрица, полученная из матрицы B обнулением недиагональных элементов, т.е. элементов, у которых i ≠ j . |
2 Отметим, что алгоритм определения эффекта идеального лечения (по третьему принципу) сложнее, чем алгоритм эффекта от лечения по наиболее вероятному диагнозу. Это видно на примере. Пусть 100 пациентов больны тремя болезнями с распределением:
Номер болезни |
j = 1 |
j = 2 |
j = 3 |
Число больных |
10 |
50 |
40 |
(По третьему принципу каждый больной лечится от той болезни, которой он болен. По первому принципу все лечатся по диагнозу, в данном случае диагноз D определяется по наиболее вероятной, 2-й, болезни.)
После проведения следующего анализа распределение приобрело вид:
Номер болезни |
j = 1 |
j = 2 |
j = 3 |
Число больных |
20 |
15 |
65 |
Как видно по приведенным таблицам, 10 больных болезнью j=1 ранее лечились неверно. Для определения эффекта диагностики нужно указать (нужно знать) как ранее лечились эти пациенты. В данном примере они могли лечиться от болезни j=2 или j=3. Рационально считать, что
они лечились по варианту с наибольшим Z . Т.е. расчет идет по варианту (принципу) наименьшего эффекта, наименьшего δZ .
Перейдем к болезни j=2. До искомого уточняющего анализа лечение 35 пациентов от этой болезни было ошибочным. От какой болезни эти пациенты лечатся после уточняющего анализа? На этот вопрос, в общем случае, нет единственного ответа. Чтобы ответ был единственным, нужно опять привлечь дополнительные предположения, например, принцип наименьшего эффекта уточняющего анализа.
62
Однако, возможны и иные аргументы по выбору не оптимального, а близкого к нему анализа или по выбору не одного, а группы анализов [25, 26].
Вработах [25, 26] поставлены и рассмотрены задачи о выявлении неверного анализа (о проверке анализа) и о повторении анализа.
Врамках изложенного выше варианта методики задача о выявлении неверного анализа решается так. Из уже выполненных анализов по очереди исключаются анализы или их группы, и для них выполняется описанная выше процедура поиска наиболее необходимого анализа.
Вчастном случае, при конкретных подозрениях о возможной ошибочности анализа, последний удаляется из выполненных анализов. По формуле полной вероятности находится его ожидаемая величина.
|
|
|
|
acoii = pl = |
ai max |
|
|
|
|
|
|
|
|
|
|
∫ai q( ai )dai , |
|
|
(2.5.13) |
||||
|
|
|
|
|
|
ai min |
|
|
|
|
|
где |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
q( ai ) = ∑ p j q j ( ai ). |
|
|
(2.5.14) |
||||
|
|
|
|
|
|
j |
|
|
|
|
|
При данном a pl находится pnew |
по Байесу или другому методу. |
|
|
||||||||
|
oi |
|
|
|
j |
|
|
|
|
|
|
|
aoii = pl + aoi |
i =1,2,3,...,m,m −1, i ≠ pl→pnewj . |
(2.5.15) |
||||||||
После этого переобозначаем |
p j |
= pnewj |
и циклически повторяем вычисления |
||||||||
по формулам (2.5.13) – (2.5.15) до установления a pl и p |
j |
. |
|
|
|||||||
|
|
|
|
|
|
|
oi |
|
|
|
|
Найденные a pl и |
p |
|
3 наглядно иллюстрируют причины и необходимость |
||||||||
|
oi |
|
j |
|
|
|
|
|
|
|
|
перепроверки |
анализа |
i = pl . |
Саму же |
перепроверку осуществляют |
при |
||||||
рекомендации, |
основанной |
|
на изменении критерия |
Z . Например, |
если |
после |
исключения подозрительного анализа величина Z (полученная по описанной выше методике) изменилась существенно, стоит перепроверить анализ.
Вопрос о повторении анализа решается аналогично выявлению анализа, который наиболее нужно сделать. Отличие состоит только в следующем. Вероятность повторного анализа i вычисляется с учетом предыдущих анализов i .
3 Точнее, сравнение этих величин с проверяемыми величинами анализов и с получавшимися вероятностями болезней.
63
Для одних обследований вероятности повторных анализов не отличаются от первичных, для других – отличаются. Повторим здесь пример, приведенный в предыдущих публикациях [2.5.1, 2.5.2]. Если в организме есть глисты (или простейшие, или патогенная флора), то при повторных анализах вероятность их обнаружения повышается. Повышается надежность (т.е. вероятность) обнаружения и не обнаружения патологических изменений в биопсии и т.п.
Таким образом, при выяснении, какой следующий анализ сделать, рассматриваются: еще не сделанные анализы и уже сделанные. Для последних выясняется необходимость их повторения как для контроля (для исключения случайных ошибок), так и для повышения надежности.
Возникает естественный вопрос о продолжении или остановке процесса определения следующего анализа. Если число анализов не исчерпано, то разумно сформулировать критерии прекращения процесса поиска анализа x . (Кстати, если число анализов исчерпано, а упомянутые критерии не выполнены, то это заставляет задуматься о полноте набора используемых анализов или болезней).
Для ветеринарии в некоторых случаях критерии могут быть разработаны, исходя из стоимости анализов и прибыли от излечения. Критерии, предлагаемые ниже, не связаны с ценами. В качестве необходимых условий остановки поиска следующего анализа предложим соотношения
∑ |
pnewj |
− p j |
|
≤ εp , |
(2.5.16), |
||
|
|
|
|
||||
p j |
|||||||
j |
|
|
|||||
|
∆Z ≤ ε∆Z . |
|
(2.5.16а). |
||||
Неравенство (2.5.16) отражает стабилизацию процесса уточнения диагноза, |
(2.5.16а) показывает, что эффективность дополнительных анализов стала низкой. Поскольку Z имеет размерность времени, можно подумать о рациональных значениях ∆Z . Эти значения не стоит выбирать меньше нескольких дней. Другим ограничением минимального значения ∆Z и других критериев является точность вычислений Z ,p j и других величин.
Достаточные условия окончания расчетов могут быть получены сравнением со здоровым человеком:
64
Z new −Z |
11 |
≤ εz . |
(2.5.16б) |
Z11 |
|
||
|
|
|
Здесь Z11 – величина Z для здорового человека, т.к. первый индекс 1 матрицы B
относится к отсутствию болезней, а второй индекс 1 – к лечению в случае нормального здоровья.
Другое достаточное условие - высокая точность диагностики |
|
(1 − max p j ) < εp . |
(2.5.16в). |
Ряд критериев может быть получен сравнением с оптимальным лечением по предложенным выше 2-му и, главное, 3-му принципам лечения.
Более жестким и точным является требование выполнить условия (2.5.16) - (2.5.16в) в нескольких, например, трех последовательных расчетах x , причем анализ x , найденный в части этих расчетов, например в двух расчетах, должен быть реализован.
Данная стратегия выбора следующего анализа уменьшает не только число проводимых (выполняемых) анализов, но и сокращает время обследования, время постановки диагноза, что иногда принципиально важно. Приведенный выше алгоритм сводит к минимуму субъективный фактор как при назначении следующего анализа, так и при диагностике.
После небольшой модификации данная методика может быть использована и в других областях медицины, а также в управлении, экономике и др. Например, может быть решена задача оптимального распределения дотаций на лечение. Дотации могут быть распределены по болезням так, чтобы общая жизнеспособность – количество и качество жизни населения выросли наибольшим образом. При этом для заразных болезней нужно учесть не только влияние лечения на больного, но и следствия заражения окружающих.
Один из вариантов решения состоит в следующем. Варьируемыми параметрами выбрать суммы, отпускаемые на лечение одного больного каждой болезнью. Функцией цели – max ∆Z ′, где ∆Z ′ увеличение вследствие лечения количества и качества жизни больного и людей, находящихся в контакте с ним. При решении необходимо учесть ограничение на общую сумму финансирования.
65
Методами нелинейного программирования (параметрической оптимизации) эту задачу можно решить.
2.6Оценка результатов диагностики
2.6.1Уровень надежности и неопределенный диагноз
Результатом байесовской диагностики каждого пациента являются вероятности каждой болезни (формула 2.4.1). Сумма вероятностей равна единице. По рассчитанным вероятностям ставится диагноз. Если вероятность 1-й болезни
( p1) не ниже вероятности 2-й болезни ( p2 ), то диагнозом может считаться 1-я
болезнь. (Формально более точное определение дано ниже и включает случай равенства вероятностей, но на практике равенства вероятностей в реальных расчетах не бывает.)
|
|
pj - вероятность j-й болезни |
||
pj, % |
|
- 1-я болезнь |
|
- 2-я болезнь |
|
|
|||
|
|
|
||
|
|
|
|
|
100 |
|
|
|
80 |
94% |
|
85% |
|
|
|
|
60 |
|
|
|
40 |
|
51% |
|
20 |
|
|
|
0 |
6% |
49% |
15% |
|
Диаграмма А |
Диаграмма В |
Диаграмма С |
90% Уровень надежности
Рис. 2.6.1. Примеры результатов диагностики трех пациентов |
|
||
Рассмотрим |
гипотетический случай |
(пример В на рис. 2.6.1): |
p1 = 51% , |
p2 = 49% . Здесь |
вероятности болезней |
практически не различимы |
и делать |
категорический вывод, по нашему мнению, нельзя. В другом случае (пример А): p1 = 94% , p2 = 6% , можно более уверенно дать ответ.
Если вероятность одной из болезней не только не ниже вероятностей других болезней, но и превышает установленный заранее «уровень надежности диагноза»,
66
то выбор делается в пользу этой болезни. Установим уровень надежности, равный 90%. Для примера А мы получаем диагноз – болезнь 1, для примеров В и С – диагноз неопределенный, то есть программа отказывается сделать выбор в пользу 1-й болезни и требует больше данных. Такой подход к оценке вероятностей позволяет перевести часть неправильно поставленных диагнозов в область неопределенных ответов. Одновременно часть правильных диагнозов также становятся неопределенными (как в примере С). Представляется, что важнее сделать меньше ошибок в диагнозе, чем большему числу пациентов поставить верный диагноз.
2.6.2 Критерий эффективности диагностики
Методы, алгоритмы и программы математической диагностики, в частности,
диагностики заболеваний тестируются на базах данных, например, на группе (G)
больных с точно установленными заболеваниями.
G={1,2,3,...,k,...,g}.
Визвестных авторам работах в качестве критерия эффективности диагностики используется процент верных диагнозов. Под верным диагнозом понимается математически (компьютерно) поставленный диагноз, совпадающий с диагнозом, поставленным данному больному медиками.
Вместе с тем, по тем же самым результатам математической диагностики можно более объективно оценить эффективность используемого метода диагностики. Пусть в результате расчета найдены вероятности болезней k -го
больного из группы G : Pkj =1,2,3,...,n, где j – номер болезни, n – число
диагностируемых болезней. Считаем, что каждый больной болен только одной болезнью и что применяемый метод диагностики рассчитывает вероятности всех болезней, которые имеются у больных данной группы G.
Например, в группе G имеются больные двумя болезнями ( n = 2) j =1 и j = 2 . Тогда для k -го больного вычисляются pk1 (т.е. вероятность первой болезни pkj =1) и pk 2 (т.е. вероятность второй болезни pkj =2 ); в иных обозначениях,
67
вычисляется вектор вероятностей болезней |
|
k |
=( pk1 , pk 2 )∑ pkj =1. (Как и ранее, |
||
p |
|||||
|
|
|
|
|
j |
суммирование |
по параметру обозначается одним нижним индексом: |
||||
j =n |
k =n |
|
|
|
|
∑= ∑ |
, ∑= ∑ .) |
|
|||
j =1 j |
k =1 |
k |
|
Номер болезни, которой каждый пациент действительно болен, обозначим jtr( k ). Вероятность (расчетная) этой болезни для k -го больного соответственно имеет обозначение p jtr( k ) . Критерием эффективности предлагается выбрать величину
CE = |
1 |
∑ pkjtr , |
(2.6.1) |
|
g |
||||
где g – число больных в группе G . |
k |
|
||
|
|
|
||
Приведем условный пример |
оценки эффективности |
двух методов |
диагностики. Эти методы обозначим как M1 и M 2 , а применение этих методов к больным группы (базы) G как M ( G ). То есть M ( G ) – это расчет вектора вероятностей болезней для каждого из пациентов группы G . Пусть G состоит из двух больных k =1 и k = 2, которые на самом деле больны болезнью j =1, т.е. jtr =1. G ={1,2 | jtr =1}. Пусть также M1( G ), т.е. применение первого метода диагностики для группы больных G, привело к следующим результатам:
для больного k =1: pkj = p11 = 0,49; pkj = p12 = 0,51;
для больного k =2: pkj = p21 = 0,99; pkj = p22 = 0,01.
Очевидно, что расчетным диагнозом считаем болезнь, вероятность которой не меньше, чем у других болезней. Если таких болезней - диагнозов не одна, то среди них диагноз определяется случайным образом.
В приведенном выше расчете метод M1 диагностировал у больного 1 болезнь j =2, поскольку расчетная вероятность 2-ой болезни больше, чем 1-ой: p12 = 0,51 > p11 = 0,49. Этот диагноз неверен, т.к. в действительности больной страдает болезнью 1: jtr(1) =1. У больного 2 вероятность 1-й болезни выше, чем
68
вероятность 2-й: p21 = 0,99 > |
p22 = 0,01, т.е. расчетом диагностируется 1-я |
болезнь. Это верно, т.к. принято |
jtr( 2 ) =1. |
При обычном подходе эффективность диагностики 50%: у одного больного правильный диагноз, у второго - неправильный. Критерий CE по формуле (2.6.1)
CE( М1 ) = 12( 0,49 +0,99 ) =0,74, или 74%.
Примем теперь, что по методу M 2( G ):
для больного k =1: pkj = p11 = 0,01; pkj = p12 = 0,99;
для больного k =2: pkj = p21 = 0,99; pkj = p22 = 0,01.
Метод M 2 , так же как метод M1, неверно диагностировал больного 1 и верно больного 2. При обычном подходе эффективность диагностики 50% - такая же, как у
M1. Критерий CE по формуле (2.6.1) |
|
|
|
|
|
|
|
||||
|
CE( М2 ) = |
1 |
( 0,01+0,99 ) =0,5, или 50%. |
|
|
|
|||||
|
|
|
|
|
|||||||
|
2 |
|
|
|
|
|
|
|
|
||
Для удобства рассматриваемые вероятности болезней выражены в процентах |
|||||||||||
и сведены в таблицу. |
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
Таблица 2.1 |
|
Вероятность болезней, % |
больной k =2 |
|
|
|
Обычная |
|||||
k |
|
больной k =1 |
|
CE |
|
оценка |
|||||
j (болезнь) |
|
1 |
|
2 |
1 |
2 |
|
|
диагностики |
||
медицинский диагноз (jtr) |
100* ( jtr ) |
0 |
100* ( jtr ) |
0 |
|
1 |
|
1 |
|||
M1( G ) |
|
49 ( jtr ) |
51 |
99* ( jtr ) |
1 |
|
0,74 |
|
0,50 |
||
M 2( G ) |
|
1 ( jtr ) |
99 |
99* ( jtr ) |
1 |
|
0,50 |
|
0,50 |
||
* - отмечены вероятности |
болезни, считающейся диагнозом ( p >50%); |
обозначение |
|||||||||
( jtr ) - напоминает, что больной на самом деле болен этой болезнью. |
|||||||||||
Сравнивая |
эффективность |
методов |
M1 и M2 , |
видим, |
что CE(M 2 ) |
существенно меньше, чем CE(M1 ). Разберемся почему. Оба метода неверно ставят диагноз больному 1. Первый метод вероятность правильной болезни указывает 49%.
Это неверно, но до правильного диагноза «не хватает» чуть более 1%. M2
вероятность правильной болезни определил как 1%, что очень далеко от
69
действительности. Т.е. M2 хуже, чем M1. CE учитывает разницу в диагностике:
CE(M1 ) > CE(M 2 ). Обычный подход указанной разницы «не чувствует».
Для полноты анализа можно конкретизировать CE . Так, кроме общего CE
можно вычислить CE для каждой болезни |
отдельно. Поясним это. В |
|||
рассмотренном примере группа G состоит из больных одной болезнью. Но группа |
||||
может |
состоять и из больных разными болезнями |
G G j , где |
j =1,2,3,...,n; |
|
G j – |
подгруппа из больных одной болезнью. |
G j |
={1,2,3,...,k ,...,g j }, ∑G j =G , |
|
|
|
|
|
j |
∑ g j |
= g . Для каждой подгруппы можно |
вычислить CE j , |
который будет |
|
j |
|
|
|
|
характеризовать эффективность метода при диагностике одной болезни. Собственно, в приведенном примере рассматривался CE диагностики одной болезни j =1.
Аналогично можно выделить подгруппу, имеющую определенный набор симптомов, и вычислить CE для этой подгруппы. Из последней подгруппы можно выделить ее часть, относящуюся к одной болезни, и вычислить CE для этой части.
2.6.3 Влияние отдельного ДП на диагноз
Интересно проанализировать, как отдельные ДП или их группы влияют на диагноз. Говоря нестрого, диагноз – это наиболее вероятная болезнь, и ставится диагноз сравнением вероятностей рассматриваемых болезней. Расчетные вероятности болезней зависят от всех ДП, и весьма интересно выяснить, как на расчетную вероятность каждой болезни повлияло наличие каждого диагностического признака, какой вклад в повышение или уменьшение вероятности болезни внес анализируемый ДП.
Оценку влияния ДП на вероятность можно провести множеством способов. Приведем один из способов оценки, согласно которому кроме вероятности болезни p j вычисляется pij−. pij− – вероятность болезни, рассчитанная при отсутствии i -го
ДП, влияние которого анализируется. Комбинации p j и pij− могут быть базой для многих оценок влияния ДП. Например, отношение
70