Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
2.28 Mб
Скачать

Непрерывный признак (ферменты АЛАТ, ферменты АСАТ, билирубин прямой, билирубин непрямой, щелочная фосфатаза, сулемовая проба, альбумин, возраст) характеризуется вещественным числом в определенном интервале: от минимального до максимального значений признака. Анализ величин непрерывных признаков врачом связан с медицинскими интервалами – нормами для каждого признака (кроме возраста). Каждое значение признака любого пациента, чаще всего, характеризуется так: норма, выше нормы, ниже нормы. Иногда используются дополнительные категории: много выше нормы, много ниже нормы и т.п.

относительная частота

1

 

 

 

 

 

 

 

паренхиматозная желтуха

 

 

 

 

 

 

 

0,8

0,76

 

 

 

 

 

 

 

 

механическая желтуха

0,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,51

0,49

 

 

 

 

 

 

 

0,4

 

 

 

 

 

 

 

0,24

+

 

+

 

 

 

 

0,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

"–" = печень не увеличена

"+" = печень

 

 

Рис. 3.2.1 Распределения ДП «увеличение печени»

Входящие в формулу Байеса вероятностные характеристики признаков рассчитываются после построения соответствующих гистограмм признаков для каждой болезни. Для дискретных признаков каждый интервал гистограммы – одно из возможных состояний признака. Первый интервал дискретного признака – отсутствие патологического признака, второй интервал – его наличие.

После построения гистограммы вычисляется вероятность попадания нового данного в каждый интервал. Таким образом, для каждого конкретного больного находятся вероятности ДП (положительного или отрицательного состояния) для каждой болезни. Именно эти вероятности используются в расчетах по формуле Байеса (2.4.1).

3.2.2 Особенности построения гистограмм непрерывных диагностических признаков

81

Математически формула Байеса позволяет использовать и вероятности и плотности вероятностей одновременно. Для использования вероятностей можно дискретизировать непрерывные признаки. То есть, разделить признак на ограниченное число интервалов (например, по медицинскому принципу: норма, ниже нормы, выше нормы) и поставить в соответствие каждому интервалу вычисляемую вероятность (а не плотность). Дискретизация связана с потерей информации, поэтому лучше использовать не вероятности непрерывно распределенных признаков, а их плотности вероятностей. Вероятностные характеристики признаков зависят от выбранных длин интервалов гистограмм, поэтому ниже изложены методики определения указанных интервалов. Для построения гистограммы с равными интервалами находятся минимально и максимально возможные значения признака. Полученная разность – размах гистограммы делится на определенное количество равных интервалов. На основании статистической базы данных рассчитывается количество пациентов, попадающих в каждый интервал (интервал значений каждого признака).

Существуют различные рекомендации по определению количества интервалов. Число интервалов является функцией объема выборки, по которой строится гистограмма. Другим условием, ограничивающим количество интервалов, является требование к минимальной высоте столбца гистограммы на каждом интервале (к минимальному числу попаданий в интервал).

В настоящей работе количество интервалов ограничено следующими условиями:

1.Количество интервалов должно быть максимально возможным, тем самым достигается наибольшая точность, приближенность к истинному распределению;

2.Высота интервала, в который попало значение признака, для которого вычисляется плотность, должна быть не меньше определенной заданной величины (при этом достигается приемлемая надежность распределений);

3.Высота каждого интервала должна быть не меньше определенной заданной величины (минимальная высота гистограммы);

4.Унимодальность гистограммы – приближение гистограммы к распределению с одним экстремумом;

82

5. Количество интервалов непрерывного признака должно быть не меньше

трех.

Сначала количество интервалов берется максимально возможным. Если при таких интервалах указанные условия не выполняются, то интервалы укрупняются, их количество уменьшается на 1, гистограмма рассчитывается заново. Это повторяется до соблюдения условий.

Требование унимодальности объясняется тем, что анализ распределений признаков не проводится и даже не предполагается. Приводимая методика диагностики изначально разрабатывалась как универсальная, применимая для диагностики любых болезней с любыми наборами признаков. Аналитический разбор всех признаков не представляется возможным, поэтому распределения признаков принимают наиболее простую форму с одной модой. Таким образом, исключается ошибка построения неистинного мультимодального распределения, особенно в условиях малой выборки. Недостатком такого подхода является то, что при принудительном унимодальном распределении гистограмма становится более грубой, менее точно повторяющей функцию плотности распределения.

Минимально возможное количество интервалов гистограммы – два интервала. При этом варианте автоматически достигается условие унимодальности. Но одновременно теряется прогностическая ценность распределения.

n

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

80

 

90

 

 

 

 

 

100

100

 

 

 

 

30

 

 

x

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

1

2

3

 

 

1

2

 

 

 

 

 

 

Рис. 3.2.2, 3.2.3 Примеры разбиения на интервалы гистограмм непрерывных ДП

На рис. 3.2.2 гистограмма состоит из 3-х интервалов, однако условие унимодальности не сохраняется. Поэтому интервалы укрупняются, их количество уменьшается до двух (рис. 3.2.3). Если для крайних значений признака (интервалы 1 и 3-й для рис. 3.2.2, интервалы 1 и 2-й для рис. 3.2.3) вероятности изменяются не

83

значительно, то для средних значений вероятность изменяется от 3/20 до 1/2 и становится неотличимой от других значений. Чтобы оградить метод от подобных ошибок, когда количество интервалов уменьшается до 2, разработан следующий алгоритм. Количество интервалов принудительно увеличивается до 3, при этом интервалы гистограммы приводятся в соответствие с медицинскими интервалами признака. Обычно, это интервалы: норма (средние нормальные значения признака для человека), ниже нормы, выше нормы (рис. 3.2.4).

n

 

 

 

120

 

 

60

 

 

 

20

x

 

 

 

нн н

вн

 

Рис. 3.2.4 Пример построения гистограммы с медицинскими интервалами

Медицинские интервалы не являются равными, но при таком разбиении признак имеет большую прогностическую ценность для врача. Предположительно и в представляемой методике диагностики качество деления на медицинские (экспертные) нормы будет лучшим, чем для двухинтервальной гистограммы.

Очевидно, что чем больше интервалов в гистограмме, тем больше она повторяет функцию плотности распределения. Однако, условие унимодальности, выполняемое безусловно, может намного сократить число интервалов и ухудшить точность вычисления плотностей. На рис. 3.2.5 условие унимодальности не выполняется полностью.

nni

1

2

3

4

5

6

7

8

9

10

11

12

13

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

84

 

 

 

 

 

 

 

Рис. 3.2.5 Пример построения гистограммы непрерывного ДП

Причиной не унимодальности распределения является, прежде всего, нерепрезентативность выборки на пограничных значениях признака (интервалы 11, 12, 13), а не истинная бимодальность. В этом случае, укрупнение интервалов приведет только к ухудшению точности вычисления плотностей для интервалов 2– 10, хотя для интервалов 1, 11, 12, 13 укрупнение интервалов может дать совершенно иные результаты, в отличие от имеющейся гистограммы. На основании этих данных сделано следующее предположение. Если значение признака попало в интервал, свыше высоты которого выполняется условие унимодальности (интервалы 2–10), а ниже нет, то вычисляемая плотность вероятности соответствует истинной. Считается, что унимодальность относительно данного значения признака выполняется. В противном случае (значение попало в интервал 1, 11, 12, 13) интервалы необходимо укрупнять.

После того, как гистограмма построена, можно приближенно вычислить плотность вероятностей для каждого конкретного значения признака. Это отношение высоты относительных частот к длине соответствующих интервалов. Причем в пределах одного интервала эта величина неизменна (рис. 3.2.6).

nni

x1 x2 x3

2

x

1

3

Рис. 3.2.6 Пример построения гистограммы непрерывного ДП

Гистограмма очень грубо отражает ход графика функции плотности распределения, поэтому рассчитанные плотности для значений х1, х2, х3 из интервалы 1 будут равными. Хотя в действительности, как мы видим из рисунка, они могут отличаются в разы. Поэтому построение общей для всех значений признака гистограммы не удовлетворяет необходимой точности вычисления

85

плотностей. Это же соображение не позволяет дискретизировать признаки. В пределах одной категории дискретизированной гистограммы истинные вероятности в середине и на концах интервала могут сильно отличаться.

Из рисунка 3.2.7 видно, что плотность вычисляется достаточно достоверно для значений признака, лежащих в центрах интервалов. Исходя из этого, разработан алгоритм, когда для каждого значения признака, для которого необходимо вычислить плотность, строится собственная отличная гистограмма. При этом, значение попадает в центр одного из интервалов. Гистограмма строится как бы вокруг значения признака (рис. 3.2.7).

nni

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

x1

x2 x3

3

4

x

 

2

 

nni

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

x1

x2 x3

3

4

x

 

 

2

 

Рис. 3.2.7а, 3.2.7б Примеры построения гистограммы непрерывного ДП

На рис. 3.2.7а гистограмма построена вокруг значения x1, на рис. 3.2.7б вокруг значения x3. Таким образом, плотность вероятностей для значений признака, попадающих в центр интервала, вычисляется более точно. Недостатком такого подхода является увеличение времени расчета диагноза.

Предложенные в настоящем разделе алгоритмы обладают очень важным свойством: сформированные по алгоритмам гистограммы не имеют «пустых»

86

интервалов, т.е. интервалов, в которые не попал ни один больной из базы данных. (Наличие пустых интервалов губит качество диагностики.) Гистограмма без пустых интервалов получается увеличением длины интервалов на участках (на краях) гистограммы, где данных мало. Но данное увеличение интервалов не распространяется на области богатой статистики (в основном, в центре гистограммы), где интервалы, примерно, соответствуют задаче отражения истинного распределения.

3.3 Построение искусственных распределений

Часто для построения распределений недостаточно статистических данных. Эта проблема, в ряде случаев, решается введением данных из врачебного опыта

(раздел 2.1.3).

Определенный у пациента диагностический признак используется в диагностике только тогда, когда для этого признака имеются достоверные гистограммы при каждой из диагностируемых болезней. Гистограмма же достоверна, если для ее построения (для вычисления плотности вероятностей) имеется не менее определенного количества данных, то есть числа больных каждой болезнью, у которых был определен именно этот признак (например, сделаны анализы «билирубин прямой»). Иначе говоря, объем выборки должен быть не меньше заданной величины. В противном случае согласно алгоритму признак в диагностике не участвует, так как вычисленная по малой выборке плотность не является достоверной.

Такая ситуация может иметь место и для некоторых ДП, представляющих большую ценность для диагностики. Игнорирование таких признаков ухудшает диагностику, а в отдельных случаях приводит к неверным результатам.

В рамках статистической базы это относится к признакам: зеленый цвет печени, маркеры, обтурация желчных путей, отсутствие эффекта лечения от паренхиматозной желтухи.

Рассмотрим гистограммы признака «зеленый цвет печени».

87

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

0

x

21

 

31

 

x

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а

 

 

 

 

 

б

 

 

 

 

 

 

Рис. 3.3.1 Гистограммы дискретного ДП «зеленый цвет печени»:

 

 

 

а) паренхиматозная желтуха; б) механическая желтуха.

 

 

 

 

 

 

На каждом столбце гистограммы написано число больных

 

 

 

На рис. 3.3.1а

гистограмма признака

«зеленый

цвет печени» для

паренхиматозной желтухи, на рис. 3.3.1б – для механической желтухи. По гистограмме видно, что положительное значение признака «зеленый цвет печени» не встречается у больных паренхиматозной желтухой. Напротив, при механической желтухе ДП «зеленый цвет печени» наблюдается часто.

Нулевое количество больных механической желтухой с ДП «зеленый цвет печени» – с позиций теории вероятностей мало похоже на реальность и, скорее, говорит о малой выборке. Диагностика по формуле Байеса с использованием этого распределения приведет к нулевому числителю и соответственно нулевой вероятности одной из болезней, что также мало реально. Вопрос нулевых вероятностей поднимался с самого начала исследований. Было принято решение: не допускать нулевых данных в распределении (не допускать нулевых столбцов диаграмм). Реализация этого принципа для непрерывно распределенных ДП изложена в предыдущем разделе. Для дискретных ДП вместо нулевого значения указывается какое-либо очень малое число больных.

Ввиду перечисленных обстоятельств, были применены выработанные принципы: вместо нулевого значения указать малое число больных и использовать медицинские знания для дополнения статистики. Согласно многолетним врачебным наблюдениям одного из авторов – профессора Г.Г. Устинова, примерно, у одного из ста больных паренхиматозной желтухой бывает зеленый цвет печени. Это больные с холестатическим вариантом течения паренхиматозной желтухи. На основании этого врачебного опыта сформировано более реальное распределение, изображенное

88

гистограммой рисунка 3.3.2, которая (гистограмма) отличается от гистограммы, изображенной на рис. 3.3.1а.

n

100 1 x

+

Рис. 3.3.2 Гистограмма ДП «зеленый цвет печени» для паренхиматозной желтухи, построенная с учетом медицинских рекомендаций

Для настоящей методики применение искусственных распределений, построенных с учетом мнения специалиста, позволило достичь лучшей диагностики, чем применение эмпирических гистограмм, полученных на основе малой выборки. Так и должно было случиться: имеющихся данных для паренхиматозной желтухи было недостаточно, следовательно, не было оснований использовать важный диагностический признак. Искусственное распределение позволило этот признак использовать, что и повысило качество диагностики. Заметим, что важность признака для дифференциальной диагностики – это его уникальность – близость к нулю вероятности одного из значений ДП [89].

Коррекция распределений проводилась только для тех признаков, которые являются крайне информативными в диагностике и часто оказываются решающими для диагноза.

Другие, не столь диагностически ценные признаки, без нулевых вероятностей, с малой выборкой для построения гистограмм, предпочтительнее игнорировать. Достоверность искусственных распределений так же небезупречна, как и гистограмм с малой выборкой. Однако использование искусственных распределений позволяет свести к минимуму грубые ошибки. В приведенном примере вероятность зеленого цвета печени у больных паренхиматозной желтухой действительно не нулевая, в отличие от вероятностей эмпирического распределения, и, соответственно, сохраняется возможность постановки диагноза «паренхиматозная желтуха» у больного с зеленым цветом печени.

89

Не составляет труда построить искусственные распределения для дискретных признаков (на основании экспертных оценок). Но и для непрерывных признаков возможно построение искусственных гистограмм, например, в пределах медицинских интервалов: норма, ниже нормы, выше нормы.

3.4 Построение многомерных распределений

Целесообразность использования многомерных распределений изложена в разделе 2.2. В условиях реальной статистической базы удавалось построить многомерные признаки, включающие 2, 3, изредка 4 и 5 признаков.

Построение многомерного распределения рассмотрим на примере построения двумерного ДП «АЛАТ-АСАТ» .

1.Независимо друг от друга строятся гистограммы анализов АЛАТ и АСАТ по приведенным выше правилам построения одномерных распределений.

2.а) Определяется тот интервал гистограммы для АЛАТ, к которому относится значение АЛАТ пациента N.

б) Так же находится интервал для АСАТ.

3.Далее определяются все пациенты, значения признаков которых попадают в найденные интервалы.

4.Проверяется условие: число таких пациентов (высота интервала) должно быть не меньше определенной заданной величины (по крайней мере, не быть нулевым):

а) если условие не выполняется, тогда количество интервалов гистограмм для АЛАТ и АСАТ уменьшается, гистограммы строятся заново и происходит возврат к пункту 2;

б) если условие выполняется, тогда рассчитывается вероятность (плотность вероятности) двумерного признака.

Для иллюстрации приведем одномерные гистограммы признаков АЛАТ и АСАТ пациента N.

90

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение