Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
2.28 Mб
Скачать

Pj : p j =1, p j =2, p j =3, , p j =n .

Начиная с некоторого числа болезней, этот метод по скорости решения задачи уступает большинству методов оптимизации. Но по надежности отыскания оптимума он, пожалуй, лучший. Прямой перебор наиболее информативен для выяснения типа гиперповерхности функции цели – вида критерия наибольшего правдоподобия как функции.

По сравнению с другими методами прямой перебор позволяет наиболее наглядно продемонстрировать теоретическое доказательство того, что задача имеет одно решение: критерий наибольшего правдоподобия как функция имеет один максимум.

Для реализации прямого перебора нужен алгоритм генерации сочетаний варьируемых параметров. На перебираемые, варьируемые (независимые) переменные, которыми являются вероятности болезней, имеются естественные ограничения: вероятности болезней неотрицательны и их сумма равна единице. Отсюда следуют варианты алгоритмов перебора, выбора сочетаний вероятностей. Вероятность одной из болезней, например n -й, можно определить как разность

j =n1

p j =n =1p j , (2.3.7)

j =1

где p j – вероятность j -й болезни, n – число болезней, p j =n – вероятность n

болезни.

j =n1

Условия p j =n 0 или p j 1 позволяют ограничить массив сочетаний

j =1

перебираемых вероятностей.

Существуют и другие варианты алгоритма набора (генерации) сочетаний вероятностей болезней.

В полученной области сочетаний вероятностей определяются величины критерия наибольшего правдоподобия и находится оптимальное сочетание вероятностей, т.е. сочетание, при котором критерий наибольшего правдоподобия максимален. Такое сочетание обозначим

Pmax = { p j =1, p j =2, p j =3, , p j =n }.

(2.3.8)

51

 

Pmax

Прямой перебор можно усовершенствовать: сначала его стоит проводить с крупным шагом по p j , а затем в районе Pmax повторить с уменьшенным шагом и

т.д. до нужной точности. Ограничение района проводится так, чтобы была

гарантия нахождения максимума в этом районе.

Сочетание величин вероятностей болезней, при котором критерий максимального правдоподобия достигает наибольшего значения, считается вероятностями болезней. На наш взгляд, основание считать найденные по этому условию вероятности наиболее правдоподобными – в следующем: при этом сочетании вероятностей болезней – наибольшая вероятность наблюдать имеющиеся

убольного ДП вместе (наибольшая вероятность наблюдать имеющийся набор ДП).

Вслучае прямого перебора вероятностей двух болезней допускается существование (формальное) двухмерного пространства наборов вероятностей,

измерениями

которого являются вероятности болезней p j =1 и p j =2 . Это

пространство

сочетаний вероятностей можно представить двухмерной плоскостью

с теми же измерениями. Проводится перебор всех сочетаний вероятностей с целью нахождения их оптимального сочетания (набора). Критерием оценки «качества» набора (правильности, близости к реальному) служит критерий максимального правдоподобия. Его наибольшее значение для конкретного набора из всех сочетаний (наборов) и будет свидетельствовать о наиболее правдоподобном выборе вероятностей. Вышеописанные действия, необходимые для получения достоверных сочетаний вероятностей, мы называли «поиск максимального СМТ», или, более полно, поиск максимального значения критерия максимального правдоподобия методом перебора вероятностей на плоскости наборов вероятностей.

Естественно, перебор всех возможных наборов вероятностей неосуществим. Реально перебираются вероятности с определенным шагом (нами использованы последовательные шаги – 2%, 1%, 0,5%).

Поиск максимального значения критерия с использованием методов оптимизации пока не реализован.

52

2.4 Учет взаимозависимости диагностических признаков и динамики заболеваний в байесовском подходе к диагностике

2.4.1Использование формулы Байеса

Вданной работе исследуется байесовский подход к диагностике заболеваний, вероятность болезни каждого пациента рассчитывается по классической формуле Байеса

πj qij(aoi )

 

p j

=

 

 

i

 

 

.

(2.4.1)

 

π

j

q (a

oi

)

 

 

 

j

ij

 

 

 

 

 

 

 

i

 

 

 

 

Левая часть равенства – вероятность j -й болезни пациента. В числителе: πj

доля больных болезнью j

среди больных диагностируемыми болезнями;

qij(aoi )

плотность распределения

(или

вероятность)

i -го ДП величиной aoi

при j

болезни. (Имеется в виду плотность распределения вероятности непрерывно распределенного ДП или вероятность ДП, принимающего только дискретные значения, так сказать, дискретного ДП). То есть, если при обследовании пациента величина i -го ДП равна aoi , то по распределению находится плотность распределения непрерывного ДП (или вероятность дискретного ДП) qij ,

соответствующая величине aoi . – произведение всех i -х признаков от 1 до m.

i

В знаменателе сумма таких произведений для всех диагностируемых болезней j (от j =1 до j = n ).

Если плотность (вероятность) признака при первой болезни больше плотности

(вероятности) признака при второй болезни ( qi1 > qi2 ), то очевидно, что этот признак более характерен для первой болезни. Формула (2.4.1) рассчитывает вероятности болезней, исходя из соотношения плотностей (вероятностей) распределения всех признаков в совокупности.

При диагностике заболеваний по формуле Байеса в качестве априорной вероятности используется πj – относительная частота (доля) больных болезнью j

среди больных диагностируемыми болезнями. В начале исследований возникал

53

вопрос: «Нужно ли учитывать распространенность болезни при диагностике конкретного больного?» Высказывались соображения типа: «Для диагностируемого пациента важны его ДП, а не то, как часто больные подозреваемой болезнью доставляются в данную больницу».

Развеять сомнения помог анализ предельных случаев. Представим, что больной живет на севере типа Земли Франца-Иосифа, и что диагноз ему ставит другой полярник, имеющий все приборы для определения диагностических признаков и компьютерную программу диагностики. Пусть оба участника мысленного эксперимента вообще северные жители, никогда не бывавшие на юге и даже не встречавшиеся с людьми и товарами из южных стран, пусть даже последний корабль с материка приходил год назад.

В этих условиях у больного оказались ДП, более свидетельствующие о диагнозе «Денге лихорадка», чем о пневмонии. «Денге лихорадка» распространена только в тропиках и субтропиках, переносчик комар определенного вида, инкубационный период 3 – 3,5 дня.

Представляется очевидным, что для получения правильного диагноза в расчете нужно использовать относительную частоту тропической болезни, приняв эту частоту небольшой. Приведенный пример говорит о необходимости учитывать

« πj ».

2.4.2 Учет динамики заболеваний при байесовском подходе

Простой смысл формулы Байеса (2.4.1): вероятность при болезни j

наблюдать у больного ДП i =1,2,3,...,m вместе, отнесенная к сумме таких вероятностей у всех диагностируемых болезней (у полной группы болезней) [103]. Формула (2.4.1) выписана для независимых ДП. Пусть в формулу входят два взаимозависимых признака, тогда вместо вероятности второго ДП нужно указать условную вероятность второго ДП относительно первого. (Основываясь на условных вероятностях или на степени взаимозависимостей, начальные и предельные значения которых укажет врач, можно проработать методику диагностики, которая совместит математические методы со знаниями врача и будет «обучаться» на базе данных с известными диагнозами.) Если два ДП абсолютно

54

зависимы, условная вероятность равна единице, и нужно указывать только вероятность первого ДП.

Отсюда сразу следует, что не изменяющиеся в какой-либо период ДП, например, камни в желчном протоке нужно (в этот период) вводить в формулу Байеса один раз, независимо от того, сколько раз его определяли (наблюдали) и в какие дни это было.

Для двух изменяющихся ДП в грубом приближении второй признак можно «округлить» или до «сильно зависимого», или «независимого» от первого. Степень зависимости второго ДП от первого можно определить методами математической статистики по базе данных.

Сильно зависимые ДП рационально усреднять в один признак. В главе 4 будет приведено исследование взаимозависимости последовательно определенных (в разные дни болезни) величин одного и того же диагностического признака. Данное исследование количественно подтверждает очевидное: ДП, повторно определенный в ближайшие дни, сильно зависит от определенного в первый день. В последующие дни эта зависимость быстро ослабевает.

Внастоящей работе для признака, измеренного (определенного) многократно,

идля механической и паренхиматозной желтух использовано следующее допущение: считаются сильно взаимозависимыми значения анализов и симптомов первых двух дней. Эти значения усредняются и представляются как 1-й ДП, анализы

исимптомы за следующие 3 дня усредняются во 2-й ДП, за следующие 5 дней усредняются в 3-й признак. Образованные вышеуказанным усреднением 1, 2, 3-й (и так далее) ДП в формуле (2.4.1) отражаются как независимые признаки.

Таким образом, учитывается динамика заболевания. Не повторно определенные, а разные ДП считаются, как и в других работах, независимыми, хотя это неверно.

Вышеизложенную методику будем называть 2-м приближением, чтобы отличать от 1-го приближения (см. предыдущий раздел), согласно которому все повторно определенные ДП (за исключением неизменных) считаются отдельными, независимыми признаками. В этом перечислении за нулевое приближение взята общепринятая методика, согласно которой все ДП считаются независимыми, а

55

повторные определения (динамика) признаков игнорируются.

Основа предложенной методики учета динамики в том, что повторно определенные величины одного и того же ДП рассматриваются как разные ДП и учитывается их (этих разных ДП) взаимозависимость [97, 99, 103]. В настоящей работе учет взаимозависимости приближенный, но переход к точному учету – дело техники. Важно, что найдена принципиальная основа учета динамики.

2.4.3 О совмещении методов диагностики

Некоторые из перечисленных выше и в обзоре методов диагностики совместимы. Например, нейронные сети в качестве исходной информации могут использовать не сами ДП, а их вероятности и плотности вероятностей. Не менее перспективным представляется вместо ДП использовать вероятности болезней, рассчитанные по каждому ДП. (Прежде всего, стоит изучить использование байесовской вероятности, так как формула Байеса позволяет объективно использовать в одной формуле и вероятности и плотности вероятностей.) Аналогично кластерные методы могут базироваться на вероятностных оценках [97].

2.5 Определение исследования (анализа), наиболее необходимого для диагностики

Задача оптимальной последовательности обследования пациента была поставлена и решалась авторами в 1995 году [25, 26], а в 2000 году получен и опубликован [101] приводимый ниже алгоритм нахождения ДП, который необходимо определить в первую очередь для уточнения диагноза. Решение состоит в нахождении конкретного типа следующего ДП (анализа, симптома, инструментального обследования) на основе имеющейся базы данных (сделанных анализов и уже определенных симптомов). Иными словами, основная цель - найти какой именно следующий анализ нужно сделать или какой симптом нужно определить.

Для решения задачи предложена [25, 26] функция цели (жизнеспособность) Z – количество и качество оставшейся (для пациента) продолжительности жизни.

Постулируется, что максимум этого параметра – Zmax для каждого пациента достигается при правильном определении его болезни j = j( truth ) и дальнейшем

56

j =1,2,3,..., n
max Z

лечении по существующим методам лечения. Здесь j = j( truth ) – номер болезни

или сочетания болезней или набора болезней, в зависимости от задачи. Любые другие неверно определенные значения j′ ≠ j( truth ) приведут к другому курсу

лечения и к не большему, т.е. к меньшему или такому же значению.

Решение состоит в поиске оптимального (наиболее необходимого) ДП, назовем его « X », т.е. ДП (анализа), при котором функция цели Z максимальна.

Таким образом, целью оптимизации является Zmax , а варьируемым параметром номер ДП. Эквивалентной функцией цели является Z , а эквивалентной целью оптимизации maxZ , где Z - увеличение Z вследствие проведения следующего анализа. Полезно вычислять обе функции цели Z и Z .

ДП (анализ) X максимизирует не вероятность истинной болезни Pj = j( truth ) , а

функцию Z . При этом оптимален x , не только увеличивающий вероятность j( truth ) – истинной болезни, но и выявляющий наличие или отсутствие наиболее опасных из нераспознанных болезней, следовательно, болезней, лечение которых не проводится.

Как отмечалось в [25, 26], для оптимизации могут быть использованы и иные, чем Z , функции цели. Например, для дифференциации между двумя болезнями функция цели равна P – разности вероятностей этих болезней. Эта же функция позволяет найти X , в наибольшей мере решающий вопрос о выборе между двумя диагнозами.

Для определения Z и других функций цели используется методика расчета вероятностей Pj возможных болезней. Расчет вероятностей болезней может быть

выполнен, как показано в предыдущем разделе, по Байесу или иным методом и здесь используется как известная стандартная операция. Перейдем к определению и X . Пусть проводится диагностика болезней и известны

вероятности этих болезней Pj . Болезнью j =1 будем считать норму, отсутствие болезней.

57

pnewj
am+1 ,am+2 ,...,am+k ,...,am+y .

 

p j =1,

(2.5.1)

 

j

 

здесь

n

 

= .

 

j

j =1

 

Указанное выше начальное распределение болезней получено по результатам диагностики на базе m определенных ранее анализов, инструментальных обследований и симптомов. Номера этих ДП обозначим буквой i 1 i m. В

принципе, p j ,j =1,2,3,...,n могут быть взяты и из других источников, например,

по мнению врачей.

Пусть также осталось y ДП, еще не использованных для диагностики:

(2.5.2)

Номера еще не использованных ДП здесь и далее обозначены буквой k. Для каждого из этих ДП 1k y (также как и для каждого из m ДП) известны

условные функции распределения вероятностей для дискретных симптомов и анализов и плотности распределения вероятностей для непрерывно распределенных симптомов и анализов. Т.е. известны, например, из статистических данных

q j ( ai ) и q j ( ak ),

(2.5.3)

где i =1,2,3,...,m; k = m +1,m +2,m +3,..., y .

Пусть также известен интервал изменения ak , т.е. akmin и akmax .

Предположим, что сделан дополнительный k-й анализ и получена величина ak = ako . (Это только предположение, анализ еще не сделан.) После того как

(гипотетически) сделан k-й анализ и получена величина ako , вычислим (уже на основе m +1 анализов!) новые вероятности болезней.

{a (i =1,2,3,...,m)+ a

ko

}

pnew (a

ko

)(j =1,2,3,...,n).

(2.5.4)

i

 

j

 

 

Еще раз отметим, что процедура (2.5.4) выполняется при конкретном значении предполагаемой величины aok , например, при aok =5. Найденные величины

58

не зависят от начальных или определенных на предыдущей итерации вероятностей болезней.

Теперь по формуле полной вероятности найдем вероятность того, что в результате гипотетического анализа «k» будет получена величина aok (например, aok =5).

Qk ( aok ) = p j ( aok

)q j ( ak ).

 

 

(2.5.5)

 

 

j

 

 

 

 

 

 

Для непрерывных симптомов и анализов также используем формулу (2.5.5),

подставляя справа плотности вероятности q j ( ak ) и получая

(слева)

плотность

вероятности k-го ДП для величины этого ДП, равной aok .

 

 

 

Теперь повторим вычисления

по формулам (2.5.4) и

(2.5.5)

для всех

(дискретных или непрерывных) значений aok . В результате получим функции

Q ( a

k

) и pnew( a

k

)

 

 

(2.5.6)

k

j

 

 

 

 

 

для всех ak [ak min ,ak max ].

 

 

 

 

 

 

 

 

Подчеркнем, что для каждого

значения

ak = aok имеется

распределение

pnewj ( ako ), т.е. pnewj =1 ( ako ),pnewj =2 ( ako ), pnewj =3 ( ako ),..., pnewj =n ( ako ).

Аналогично по

формуле (2.5.5) и методике расчета вероятностей болезней получим распределения

или плотности вероятности и распределения pnewj

в виде

(2.5.6) для

всех y

симптомов (1 k y ).

 

 

 

 

 

 

 

Далее перейдем к вычислению функции цели

Z . Возможны три принципа

вычисления Z . Для их иллюстрации представим, что

имеется три

болезни,

вероятности

которых равны

p1 , p2 , p3 ,

причем

p2 > p1

и

p2 > p3 .

Согласно

принятому

выше, введем

диагноз D

как

наиболее

 

вероятную

болезнь

D = j{max(p j j =1,2,3,...,n)}.

В данном

примере

D это

болезнь № 2. Теперь

представим, что имеется три группы больных. Первая группа с относительным количеством больных p1 , вторая с относительным количеством больных p2 , третья с относительным количеством больных p3 . Первый принцип вычисления Z состоит

59

в следующем. Полагаем, что все три группы больных лечатся согласно диагнозу D .

Т.е. правильно лечится группа p2 и неправильно группы p1 и p3 . Величина Z для всех групп разная (группы считаются состоящими из одинаковых пациентов).

Z для всех больных при результате анализа ao вычисляется как

Z( ao ) = p j ( ao )ZD, j ,

(2.5.7)

j

 

где, за исключением аномальных случаев, ZD, j =2 > ZD, j =1 ZD, j =2 > ZD, j =3 .

Это принцип наиболее близок к практике: больного лечат по диагнозу понимаемому как наиболее вероятная болезнь (хотя, впрочем, не исключается и комбинированное лечение, но это отдельная тема).

Второй принцип отражает известные методики теории вероятностей. А именно группы составляют из наугад взятых больных. Относительное количество больных в группах p1 , p2 , p3 . Первую группу лечат от болезни 1, вторую – от болезни 2, третью – от болезни 3.

Третий принцип целиком теоретический. Его можно представить так. Пусть, например, случайно в первую группу попали именно больные болезнью 1, во вторую – болезнью 2, тогда третью группу составят больные болезнью 3. Напомним, что все больные, из которых формируются группы, имеют абсолютно одинаковые анализы. Поэтому, сознательно сформировать группы, в каждой из которых больные одной болезнью, невозможно. Третий принцип лечения состоит в том, что больные каждой группы лечатся от той болезни, которой они больны, т.е. проводится лечение по 3м диагнозам. Обсуждаемый принцип лечения может быть использован как теоретический эталон, как база для сравнения эффективности лечения, диагностики и т.п.

Выпишем формулы расчета Z при лечении по первому принципу. Будем использовать матрицу-столбец B с элементами Z j ,D , которые представляют собой величины Z для пациента (данного возраста, состояния здоровья и других особенностей) больного болезнью j( j =1,2,3,...,n ) при лечении в соответствии с диагнозом D . До проведения k-го анализа диагноз D определялся по наиболее

60

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение