Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
2.28 Mб
Скачать

исключена.

Многомерное распределение органически содержит в себе взаимосвязь признаков заболевания, поэтому построение таких распределений избавляет от необходимости учета взаимозависимости признаков.

Предельный случай – многомерное распределение всех признаков заболевания g j(a1, a2, a3, , am ), где j – номер болезни, ai (i =1,2,3,...,m ) – признак заболевания. Если бы такое распределение удалось построить, то отпала бы необходимость в расчете вероятности болезни по формуле Байеса. Действительно,

определив у больного конкретные величины признаков ai : a1 = ao1 ,a2 = ao2 и т.п.,

сразу (по зависимостиg j(a1, a2, a3, , am ) получаем плотность вероятности g j .

Сравнение g j у распознаваемых болезней j =1,2,3,...n является достаточной

информацией для вывода о диагнозе.

Вышеприведенное рассуждение представляется тривиальным, но после того, как оно высказано. На самом деле, данное рассуждение – общий подход к использованию многомерных распределений.

Плотность распределения непрерывно распределенных ДП наглядна и ее вычисление однозначно. При сочетании дискретных и непрерывных ДП возникает проблема, которая возникла перед авторами с начала исследований [89, 93]: допустимо ли «на равных» рассматривать плотности вероятностей непрерывных ДП и вероятности дискретных ДП? То есть, допустимо ли эти, отличающиеся не только по сути, но в большинстве случаев даже по порядку, величины использовать в одной формуле. В данном случае проанализирована представительность многомерного распределения, включающего и вероятности дискретных ДП и плотности распределения непрерывных ДП. Был рассмотрен академический вариант аппроксимации дискретного распределения непрерывным с помощью кривых плотности вероятности, подобных дельта-функции. Прорабатывались дискретизация непрерывных ДП и проблемы выбора интервалов дискретизации, а также оценки возникающих при дискретизации погрешностей и т. п. В результате было выяснено, что для многомерных распределений проблемы совмещения дискретных и непрерывных ДП вообще нет. Проиллюстрируем это на примере двумерного

41

распределения, в котором один ДП дискретный, а второй непрерывный. Если строить одномерное распределение непрерывного ДП только по величинам этого ДП у тех больных, у которых найдено определенное значение дискретного диагностического признака, то плотность этого «выборочного» распределения и будет плотностью двумерного распределения. И нет необходимости в дискретизации.

Ордината многомерного распределения зависит от масштабов входящих в него непрерывных распределений. Может быть, эти масштабы нужно связывать со средними квадратическими отклонениями диагностических признаков, по которым построено распределение.

Один из вариантов определения вероятности болезни или комплексного многомерного ДП состоит в вычислении вероятности попадания совокупности определенных признаков заболевания aoi =( ao1, ao2, ao3, , aom ) в заданный гиперпараллелепипед. При этом трудности переходят на задачу задания длины граней параллелепипеда. Не исключено, что длина i -й грани может быть связана с погрешностью измерения i -го ДП [99, 104, 110].

Кроме обычных методов вычисления погрешностей определения дискретных ДП можно предложить следующее. Для дискретного признака вместо его погрешности можно использовать погрешность распределения. Например, пусть у признака (симптома) «боль» распределение при болезни j : 0,8 – есть боль, 0,2 – нет боли. Величины 0,8 и 0,2 имеют погрешность определения. Эта погрешность может играть роль погрешности признака (данную погрешность предлагается использовать как погрешность дискретного признака).

Заметим, однако, что определенные таким образом погрешности могут оказаться разными у разных болезней. Представляется, что нужно использовать одинаковую погрешность у всех болезней. В качестве одинаковой погрешности можно взять наибольшую погрешность данного признака (среди погрешностей при всех болезнях) [99].

На практике в общем случае нет возможности построить многомерное распределение, включающее все ДП. Обычно статистики хватает для построения двух и трехмерных распределений, которые являются распределениями нового

42

многомерного ДП. В простейшем и практически наиболее значимом случае образуются двумерные признаки: из двух одномерных признаков образуется пара. Возникает вопрос: стоит ли один и тот же ДП включать в несколько пар. (При объединении диагностических признаков в пары можно предложить разные принципы объединения. C одной стороны, не стоит с одним диагностическим признаком образовывать много пар, чтобы избежать неадекватного повышения его роли. С другой стороны, чем больше пар можно образовать, тем больше связей между диагностическими признаками можно учесть. Конечно, «образовывать пары», т.е. переходить к двумерным диагностическим признакам, имеет смысл только тогда, когда эти пары можно образовать у всех диагностируемых болезней.) Если рациональна минимизация числа образуемых многомерных диагностических признаков, то в конкуренции ДП на вхождение в многомерный признак очевидно только одно: чем более взаимозависимы ДП, тем рациональнее объединять их в многомерный ДП. Остальные вопросы требуют исследования.

2.3Диагностика методом максимального (наибольшего) правдоподобия

2.3.1Итерационный алгоритм диагностики заболеваний

Всамом начале исследований формула, предложенная авторами для расчета вероятности болезни [90 – 95, 97, 98, 100], считалась оригинальной и имела название «формула обобщенных вероятностей» [90 – 95, 99]. Позднее был сделан подтвержденный математически вывод, что варианты «формулы обобщенных вероятностей» являются иной формой метода максимального (наибольшего) правдоподобия (сокращенно ММП) [96, 99, 101, 110].

Метод максимума правдоподобия (термин был впервые использован в работе Фишера, 1922) введен в теорию вероятностей как общий метод оценивания параметров генеральной совокупности с помощью максимизации правдоподобия выборки, обозначенного ниже буквой L [56 и др.].

Покажем, как были получены нетрадиционные формы ММП.

Основная цель настоящего исследования – разработка методов диагностики. Диагнозом считается наиболее вероятная болезнь, а вероятность болезней рассчитывается по диагностическим признакам, определенным у пациента. Для

43

нахождения вероятностей конкретных величин ДП при каждой болезни была собрана база данных и по ней определены распределения каждого ДП при каждой болезни. Так что распределения дискретных ДП и плотности распределений непрерывных ДП при болезнях известны. Более того, база данных собиралась так, что позволила определить распределения вероятностей (для дискретных ДП) и плотности вероятностей (для непрерывно распределенных ДП) в каждый день болезни.

Итак, известны распределения

q

(a

)={qt1

(a

),qt 2

 

(a ),qt3 (a

),...,qτ

(a )}

 

ij

i

ij

i

 

ij

 

 

i

ij

i

ij

i

 

и диагностические признаки пациента aoi ,

i =1,2,3,...,n , следовательно, по этим

данным для каждого диагностического признака может быть определена qt

( at )

 

 

 

 

 

 

 

 

 

 

 

 

ij

oi

вероятность или плотность вероятности ДП.

 

 

 

 

 

Для одного и один раз определенного ДП выпишем формулу Байеса

 

 

 

 

 

 

p

j

qt (at )

 

 

 

 

 

 

p j =

 

 

 

ij

oi

 

 

 

 

 

 

 

p

qt

(at

),

 

 

(2.3.1)

 

 

 

 

 

j

 

 

j ij

oi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

по всем n диагностируемым болезням.

где – краткая запись суммирования

j

 

 

 

 

 

j =1

 

 

 

 

 

В выписанной формуле Байеса p j – вероятность болезни в правой части уравнения трактуется так же, как и в левой части. Данная трактовка отличается от широко принятой трактовки, согласно которой (Н. Бейли [29, 30]) p j в правой части является не вероятностью, а распространенностью болезни. Широко принятая трактовка обоснована и используется в других разделах. Соглашаясь с общепринятой трактовкой, все же нельзя исключать из исследования иных трактовок. Поэтому в настоящей части публикации исследуется вид формулы Байеса, отвечающий, на наш взгляд, концентрации внимания на вероятности болезни для данного конкретного больного. Учет распространенности болезней может быть сделан дополнительными членами формулы. Однако, до учета распространенности, предлагается завершить исследования диагностики на базе

44

формулы (2.3.1).

Формула (2.3.1) разрешается относительно p j . Для более наглядного анализа этой формулы запишем ее для двух болезней: j =1 и j = 2 . Тогда вероятность первой болезни

 

 

p qt

(at

)

 

 

 

p1 =

 

1

i1

oi

 

 

 

 

p qt

(at

)+ p

qt

(at

).

(2.3.1а)

 

1 i1

oi

 

 

2

i2

oi

 

 

Учтем, что в полной группе из двух болезней p1 + p2 =1.

Как видно, уравнение (2.3.1а) имеет только два решения: p1 = 0 , p2 =1 и p1 =1, p2 = 0 .

И задача состоит в отыскании решения, верного с позиций диагностики. В качестве решения предлагается итерационный процесс. Этот же итерационный процесс был использован для практической диагностики, которая осуществлялась по уравнению (2.3.1), переписанному в виде

 

pk qt

(at )

 

 

pkj +1 =

j ij

 

oi

 

 

pk qt

(at

).

(2.3.2)

 

j

ij

oi

 

 

j

На практике предложенный итерационный алгоритм расчета всегда сходился и качество диагностики желтух: механической, паренхиматозной и гемолитической, а также здорового состояния пациента – было высоким [94, 98, 109].

Возник вопрос: «Всегда ли сходится предложенный итерационный процесс?» Математически доказана сходимость предложенного итерационного алгоритма. Одновременно показано, что метод траекторий эквивалентен (является иной математической формой) методу максимального правдоподобия [100, 110]. Строгое доказательство сходимости итерационного процесса и его связи с ММП приведены в приложении 1. Авторы надеются, что обнаруженная связь байесовского подхода, метода траекторий и ММП позволит глубже понять суть ММП.

С позиций расчета вероятностей гипотез (в данном случае – вероятностей болезней) предложенный итерационный алгоритм имеет преимущества перед известными алгоритмами расчетов вероятностей гипотез по ММП. Преимущество состоит в том, что итерационный алгоритм гарантированно сходится и позволяет

45

найти искомые вероятности при меньшем объеме вычислений [96, 100, 110].

Как ясно из обзора литературы, имеется много публикаций, посвященных расчету вероятностей болезней по известным ДП с помощью формулы Байеса. Во всех найденных публикациях при расчете вероятности болезни используется только одна величина каждого ДП, т.е. для симптома или анализа или инструментального обследования используется только одно его значение. Вместе с тем, в течение болезни и лечения ДП изменяются и определяются не один раз, так что симптом или анализ принимают ряд значений, как бы движутся по характерной для каждой болезни траектории.

В отличие от известных работ, авторам болезнь представлялась не как совокупность определенных один раз ДП, а как совокупность траекторий ДП. Такое представление изображено на рис. 2.1.1. При этом возникла задача: отразить в формуле Байеса не одну, а все измеренные в течение болезни величины ДП.

12

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

ДП

 

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

Значения4

 

 

 

 

 

 

 

 

ДП2

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ДП1

2

 

 

 

 

 

 

 

 

ДП3

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

дни, t

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

7

8

9

10 11 12 13 14 15

Рис. 2.1.1 Совокупность траекторий ДП

Например, пусть в течение болезни один из анализов – билирубин определялся 5 раз: в день поступления в больницу, а также на 3, 5, 8 и 15-й дни болезни. Для каждой определенной величины билирубина по известным распределениям билирубина в каждый день болезни, при каждой из диагностируемых болезней ( j ) находится вероятность появления билирубина

46

данной величины. Задачей является использование всех найденных величин билирубина (при расчете вероятностей по формуле Байеса).

В качестве метода ввода в формулу Байеса всех измерений каждого ДП было предложено обобщение. Обобщение самой величины ДП имеет смысл только тогда, когда данный ДП в течение болезни не меняется. Форма такого обобщения – усреднение.

Вероятностные характеристики изменяющихся ДП можно обобщать как минимум двумя путями. Во-первых, можно обобщать вероятности появления (при болезни j ) диагностических признаков данной величины qij (aoi ). Во-вторых,

можно обобщать вероятности болезней, рассчитанные по каждому конкретному определению (измерению) диагностического признака, – по формуле (2.3.1). Последний тип обобщения и рассмотрен в настоящем (2.3) разделе.

В процессе работы проверено несколько методов, отличающихся последовательностью обобщений вероятностей болезней, определенных по значениям ДП, полученных в результате обследования. Под обобщением понимается усреднение вероятностей болезней, рассчитанных по какому-либо параметру. Например, обобщение по дням, – это усреднение вероятностей, найденных по каждому из значений ДП, определенных в разные дни, – во все дни, в которые данный ДП определялся.

Аналогично, обобщение по диагностическим признакам – это усреднение вероятностей болезней, вычисленных по значениям различных ДП, определенных в один день.

Перечислим указанные методы в зависимости от последовательности обобщений:

1)обобщение сначала по диагностическим признакам, затем по дням;

2)предварительное обобщение не проводится, каждое обследование считается определением величины нового симптома; затем проводится усреднение всех найденных вероятностей;

3)обобщение сначала по дням, затем по диагностическим признакам. Рассмотрим все эти методы и формы обобщения подробнее.

47

2.3.2Обобщение поперек траекторий

Вданном варианте методики вычисление значений вероятностей болезней осуществлялось сначала во внутреннем цикле по ДП, а затем во внешнем – по дням. При этом обобщение по ДП происходит по числу представленных ДП в данный день, а после этого по дням - по числу представленных дней. Вычисления производятся по всем m ДП, определенным в данный день, и по всем τ дням, в которые существует хоть одно значение анализа или симптома обследования пациента или имеется данное инструментального обследования.

 

1

 

1

 

pk qt (at

)

 

 

 

 

 

j ij

oi

 

 

 

 

pkj +1 =

 

t

 

i

pk qt

(at

 

),

(2.3.3)

 

τ

mt

 

 

 

 

 

 

 

j ij

oi

 

 

 

 

 

 

 

 

j

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

i

– номер ДП среди m рассматриваемых ДП;

 

 

 

 

j

– номер болезни (в рассматриваемой полной группе из n болезней);

t

– момент времени (день),

в

который рассматриваются

ДП болезней и

пациента;

qijt (aoit ) – вероятность дискретного ДП или плотность вероятности непрерывно распределенного ДП в день t , причем имеется в виду ДП, полученный обследованием пациента, а вероятность может трактоваться как вероятность принадлежности ДП определенной категории или величины к болезни j ;

– суммирование по ДП; поскольку под знаком суммы стоят величины,

i

относящиеся к конкретному дню, то суммирование проводится по всем ДП, определенным в этот день (но только в этот день и в рассматриваемом внутреннем цикле суммирование идет по данным одного дня t ).

Принятое обозначение представляется понятным, хотя при желании можно подчеркнуть, что используются только ДП, определенные в день t , введением

индекса t у индекса i : «i », а также конкретизировать суммирование

i =m

 

t t

,

t

it =1

 

 

 

подразумевая перенумерацию ДП в каждый день.

 

 

48

pkj – вероятность болезни j , полученная в k -м итерационном цикле;

pkj +1 – вероятность болезни j , полученная в k +1-м итерационном цикле; mt – суммарное число ДП, определенных в день t ;

– суммирование по моментам времени (дням), в которые имеются ДП;

t

τ – (суммарное) число дней, в которые определялись ДП (в которые был определен хотя бы один ДП).

Изложенная методика получила название «диагностика поперек траекторий».

2.3.3Обобщение по отдельным ДП

Вданной методике все значения ДП обследования пациентов рассматривались по отдельности. Из этого следует специфика определения вероятности болезни – нет возможности что-либо вычислять первым: вероятность болезни по одному дню или по одному ДП. В процессе вычисления все данные обрабатываются вместе, независимо от ДП и дня, которым они принадлежат. Обобщение происходит по числу существующих значений. В отличие от других методик, здесь порядок вычислений не важен:

pkj +1 =

1

∑∑

pkj qijt (aoit )

 

.

(2.3.4)

τm

pk qt

(at

 

 

t i

)

 

 

 

 

j ij

oi

 

 

 

j

Данная методика получила название «диагностика по отдельным симптомам».

2.3.4Обобщение вдоль траекторий

Вэтой методике реализована следующая последовательность вычислений: значения вероятностей обобщаются «по дням» – по числу дней, в которые определялись ДП пациента. Обобщение «по дням» выполняется отдельно для каждого ДП, а затем проводится обобщение по всем ДП.

pkj +1 =

1

1

pkj qijt (aoit )

 

.

(2.3.5)

m

 

pkj qijt (aoit

 

 

i

τi t

)

 

j

Обобщение проводится «по дням», в которые были определены ДП.

49

CMT1

Поскольку каждый ДП определялся в разное количество дней, более строгой является запись числа дней τ с индексом i : τi . Это указывает на разное число дней, в которые определялись разные ДП, например камень «находился» двумя обследованиями (рентгеновским и ультразвуковым) в два разных дня, а увеличение печени определялось на каждом обходе – всего 10 раз.

Так как последовательность вычислений включает обобщение по дням для каждого симптома, данная методика получила название «диагностика вдоль траекторий».

2.3.5 Диагностирование с использованием «чистого» критерия максимального правдоподобия

Под использованием «чистого» критерия максимального правдоподобия подразумевается использование критерия в его классическом варианте, изложенном в учебниках. Критерий имел условное название – и вычислялся по отдельным ДП:

 

CMT1 =∏∑ p

qt

(at

),

(2.3.6)

 

iτ j

j ij

oi

 

 

 

 

 

 

 

где – произведение (по всем i -м ДП и всем τ

дням) полных вероятностей

iτ

 

 

 

 

 

(сумм по всем n

болезням вышеописанных величин).

 

 

Возможно

вычисление критерия максимального правдоподобия

также для

диагностик – «поперек траекторий» и «вдоль траекторий». Авторами проработаны и другие варианты критерия максимального правдоподобия [99 и др.].

При любой форме записи критерия максимального правдоподобия вероятность болезни можно найти методами нелинейного программирования. Т.е. этими методами находится сочетание вероятностей болезней, при которых критерий максимален. Среди упомянутых методов эффективны методы: Пауэлла, НелдераМида, Гаусса-Зейделя, аппроксимаций и др.

В качестве еще одного метода рационально использовать метод прямого перебора. Прямой перебор в простейшем случае состоит в том, что в уравнение, функцию, обсуждаемый критерий подставляются с небольшим шагом все сочетания варьируемых параметров. В данном случае – сочетания компонент вектора

50

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение