Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
2.28 Mб
Скачать

Продолжение таблицы 5.4

Поставленных диагнозов

 

 

 

Правила формирования распределений Правиль

НепраНеопред CE

экс.

 

-ных

вильных еленных

1.Высота интервала – 1

2.Высота каждого интервала – нет

7

3.

Унимодальность гистограммы – да,

469

16

79

0.9108

 

полная

 

 

 

 

 

4.

Симптом – центр интервала – нет

 

 

 

 

 

1.

Высота интервала – 1

 

 

 

 

 

2.

Высота каждого интервала – нет

 

 

 

 

8

3.

Унимодальность гистограммы – да,

476

16

72

0.9146

 

относит.

 

 

 

 

 

4.

Симптом – центр интервала – нет

 

 

 

 

1.Высота интервала – 1

2.Высота каждого интервала – нет

9

3.

Унимодальность гистограммы – да,

485

14

65

0.9194

 

относит.

 

 

 

 

 

4.

Симптом – центр интервала – да

 

 

 

 

 

1.

Высота интервала – 1

 

 

 

 

 

2.

Высота каждого интервала – нет

 

 

 

 

10

3.

Унимодальность гистограммы – да,

477

15

72

0,9184

 

полная

 

 

 

 

 

4.

Симптом – центр интервала – да

 

 

 

 

 

1.

Высота интервала – 1

 

 

 

 

11

2.

Высота каждого интервала – нет

475

15

74

0,9164

3.

Унимодальность гистограммы – нет

4.Симптом – центр интервала – да

5.3Серия экспериментов при различных приемах формирования

базы данных

Для проведения экспериментов использовались все ДП. Для диагностики признаки взяты один раз – в ближайший день от начала болезни. Гистограммы ДП сформированы по правилам, определенным в предыдущем параграфе. Результаты экспериментов приведены в таблице 5.5. Поясним содержащиеся в таблице краткие названия.

«Укрупнения дней» – это количество дней, за которое усредняются признаки с целью получения более репрезентативной выборки при построении гистограмм. Для примера приведены ДП одного из пациентов

121

 

 

 

Данные пациента N

 

 

 

Таблица 5.5

 

 

 

 

 

 

 

Признаки

Дни, когда у пациента были определены диагностические признаки

 

1

2

4

5

8

 

11

15

20

30

кожный зуд

 

+

+

 

+

 

 

АЛАТ

2.0

1.8

2.0

1.4

1.0

 

0.6

0.4

0.2

0.2

Пусть необходимо выбрать данные по АЛАТ за 6-й день для гистограммы. Если нужно укрупнить 5 дней, тогда берутся анализы около заданного дня – 4,

5, 6, 7, 8-й дни (всего 5 дней, но только в трех из пяти дней имеются данные), далее берется среднее. Результат – (2,0+1,4+1,0)/3 = 1,47.

Если нужно укрупнить 3 дня, тогда берутся анализы за 5, 6, 7-й дни (всего 3 дня, и только в 6-й день имеется анализ). Результат – (1,4)/1 = 1,4.

Вырожденный случай – когда нужно укрупнить 1 день, тогда берутся анализы только за 6-й день. Так как анализ не проводился, то данные этого пациента именно в 6-й день в гистограмму не войдут.

То есть, чем больше дней укрупняются для выборки, тем больше данных получаем для гистограммы. Но одновременно с этим сильнее сглаживаются истинные значения признаков. Необходимо определить предел укрупнения дней, когда диагностика начнет ухудшаться.

«Распространение признаков» – учитывается «постоянность» некоторых дискретных признаков в течение определенного времени. По медицинским данным следующие признаки желтухи не меняются за характерные периоды времени

(табл. 5.6).

Таблица 5.6 Интервалы дней, за время которых признаки не успевают измениться

Дней

Наименование признака

до определения

после

 

определения

 

3

 

Расширение холедоха

до операции

 

3

 

Расширение внутренних печеночных ходов

до операции

 

от поступления

 

Зеленый цвет печени

до операции

 

от поступления

 

Маркеры

до выписки

 

от поступления

 

Инородное тело

до операции

 

 

 

122

 

 

Таким образом, зная анализ «маркеры в 8-й день», можно считать известными маркеры в любой из дней от начала до конца болезни (и далее). Это позволяет собрать более представительную выборку по маркерам в любой день.

«Искусственные распределения» – построение искусственных распределений на основании опыта врача. Искусственные распределения используются при отсутствии данных для вычисления надежного истинного распределения (см. раздел

3.3).

Численные эксперименты по определению целесообразности «укрупнения дней» и «распространения признаков» приведены в таблице 5.7. Согласно результатам этих методических экспериментов необходимо укрупнять данные максимум за 5 дней. Коэффициент эффективности такой диагностики CE = 0,9468 (3-й эксперимент). Другие эксперименты (1, 2, 4, 5) показывают по оценке CE худшие результаты.

Опираясь на эту информацию, был проведен 6-й эксперимент, демонстрирующий влияние эффекта распространяемости признаков. Количество правильных диагнозов увеличилось на 5 (по сравнению с 3-м экспериментом). Неправильных уменьшилось на 1, CE = 0,9512.

Следующий шаг – применение медицинских интервалов (7-й расчет). Фактически используются статистические распределения, полученные не из статистики (ввиду ее ограниченности), а из опыта эксперта (но не знаний эксперта). Получены следующие результаты. Правильных – 524. CE = 0,9626.

По результатам расчетов выработаны следующие правила построения распределений:

1.Укрупнение дней – оптимально 5 дней.

2.Использование распространения признаков.

3.Использование искусственных распределений.

По этим правилам получена наилучшая диагностика 564 пациентов: правильных диагнозов поставлено 524, неправильных – 8, неопределенных – 32,

CE = 0,9626.

123

 

 

 

 

 

Таблица 5.7

 

 

Численные эксперименты по формированию базы данных

 

 

 

 

Количество поставленных

 

Правила формирования распределений

 

диагнозов

 

CE

Правиль-

Непра-

Неопре-

эксп.

 

 

 

 

 

 

ных

вильных

деленных

 

1.

1.

Укрупнение дней – 1

 

 

 

 

 

2.

Распространения симптомов – нет

494

12

58

0,9330

 

3.

Искусственные распределения – нет

 

 

 

 

2.

1.

Укрупнение дней – 3

 

 

 

 

 

2.

Распространения симптомов – нет

501

11

52

0,9403

 

3.

Искусственные распределения – нет

 

 

 

 

3.

1.

Укрупнение дней – 5

 

 

 

 

 

2.

Распространения симптомов – нет

513

10

41

0,9468

 

3.

Искусственные распределения – нет

 

 

 

 

4.

1.

Укрупнение дней – 7

 

 

 

 

 

2.

Распространения симптомов – нет

512

11

41

0,9467

 

3.

Искусственные распределения – нет

 

 

 

 

5.

1.

Укрупнение дней – 9

 

 

 

 

 

2.

Распространения симптомов – нет

513

12

39

0,9445

 

3.

Искусственные распределения – нет

 

 

 

 

6.

1.

Укрупнение дней – 5

 

 

 

 

 

2.

Распространения симптомов – да

518

9

37

0,9512

 

3.

Искусственные распределения – нет

 

 

 

 

7.

1.

Укрупнение дней – 5

 

 

 

 

 

2.

Распространения симптомов – да

524

8

32

0,9626

 

3.

Искусственные распределения – да

 

 

 

 

Диагностика проведена на базе 564 тестовых больных.

124

5.4Серия экспериментов с использованием многомерных распределений

Втаблице 5.8 приведены результаты диагностики всех пациентов на основе двух признаков АЛАТ и АСАТ. Признаки выбраны не случайно. Это одни из наиболее взаимозависимых признаков. Их зависимость подтверждена различными статистическими методами и врачом.

Таблица 5.8 Результаты численных экспериментов по объединению признаков АЛАТ и АСАТ в

двумерный признак

Связи между признаками для

Количество поставленных диагнозов

CE

каждой болезни

всего

правильн.

неправил.

неопредел

 

1. Механическая желтуха –

 

 

 

 

 

два одномерных признака,

402

311

21

70

0,86

паренхиматозная желтуха –

 

 

 

 

 

два одномерных признака

 

 

 

 

 

 

 

 

 

 

 

2. Механическая – двумерный,

402

191

13

198

0,80

паренхиматозная – двумерный

 

 

 

 

 

3. Механическая –два одномерных,

402

214

16

72

0,81

паренхиматозная – двумерный

 

 

 

 

 

4. Механическая – двумерный,

402

290

20

92

0,84

паренхиматозная – два одномерных

В таблице приведены результаты 4-х диагностических тестов. Два признака могут быть взаимозависимы по-разному для каждой болезни. Для паренхиматозной желтухи признаки могут быть сильно зависимы, здесь объединение признаков в двумерный признак может дать определенный эффект, а для механической желтухи зависимость может оказаться слабой, незначимой. В последнем случае двумерный признак может не привести к улучшению диагностики, вследствие ограниченности статистики: погрешности, возникающие при построении двумерного распределения, могут оказаться сильнее преимущества при учете взаимозависимости.

Поэтому предусмотрено построение многомерных признаков, в которых соответствующая взаимозависимость автоматически учитывается для каждого диагностического состояния в отдельности. Таким образом, рассматриваются 4 варианта связей между признаками для обеих болезней.

Результаты экспериментов, на наш взгляд, неоднозначны. С одной стороны, если судить по CE и по правильным диагнозам, эффект от объединения АЛАТ и

125

АСАТ – отрицательный. Так, при использовании признаков как одномерных и независимых (см. графу 1), количество правильно поставленных диагнозов – 311 (CE = 0,86), а при объединении признаков в один двумерный признак при обеих болезнях (см. графу 2) количество правильных диагнозов – 191 (CE = 0,80). Выше сказано о факторах, которые могли привести к такому выводу. С другой стороны, количество неправильных диагнозов явно уменьшилось: 1-я графа – 21 диагноз, 2-я графа – 13 диагнозов. По нашему мнению, уменьшение количества неправильно поставленных диагнозов важнее, чем увеличение правильных диагнозов. Именно поэтому мы считаем результаты экспериментов неоднозначными. Диагностика на других вариантах связей (3 и 4-я графа) заняла промежуточное положение.

Таблица 5.9 Результаты численных экспериментов по объединению признаков «билирубин

прямой и непрямой» в двумерный признак

Связи между признаками для каждой

Количество поставленных диагнозов

CE

болезни

всего

правильн

неправил.

неопред.

 

1. Механическая – два одномерных,

393

20

4

369

0,65

паренхиматозная – два одномерных

 

 

 

 

 

2. Механическая – двумерный,

393

40

2

351

0,66

паренхиматозная – двумерный

 

 

 

 

 

3. Механическая – два одномерных,

393

84

9

300

0,67

паренхиматозная – двумерный

 

 

 

 

 

4. Механическая – двумерный,

393

41

4

348

0,64

паренхиматозная – два одномерных

 

 

 

 

 

Два признака – билирубин прямой и непрямой – также являются сильно взаимозависимыми (по статистическим и медицинским данным). В этом случае объединение признаков в двумерный признак для паренхиматозной желтухи (графа 3) дает небольшое диагностическое преимущество, если судить по CE и количеству правильных диагнозов. Количество неправильных диагнозов, как видно по таблице, уменьшается, когда используется объединение билирубинов при каждой из болезней (графа 2).

Возникает мысль, что нельзя сделать однозначного вывода о том, что всегда нужно объединять признаки или всегда нужно не объединять признаки. Для одного набора признаков (пары) построение многомерного распределения не оправдывается, для другого набора – объединение полезно, если сравнивать по числу правильных, неправильных диагнозов или CE . Далее, решение об

126

объединении признаков в многомерный признак основывается на сравнении коэффициентов эффективности.

Предложенную методику можно детализировать. В частности, можно рассмотреть 2 признака, у которых при высоких значениях каждого признака объединение в пару рационально (повышает CE ), а при низких значениях – нет (снижает CE ) и т. п.

Врачи рассматривают значения признаков «билирубин прямой» и «билирубин непрямой» в пределах трех категорий: значения в норме, высокие (выше нормы), очень высокие (много выше нормы). Для двумерного признака «билирубин прямой»

– «билирубин непрямой» образовывается девять комбинаций таких категорий. Ниже приведена таблица результатов диагностики с учетом того, что признаки

разбиты на категории – медицинские интервалы.

Таблица 5.10 Результаты численных экспериментов по объединению признаков «билирубин

прямой и непрямой» в двумерный признак.

Связи между

Категории

Категории

для

для

признаками для

билирубина

билирубина

каждой болезни

непрямого

прямого

 

 

 

1

2

3

1. Механическая

Н

Н

желтуха –

Н

ВН

два одномерных

Н

МВН

признака,

ВН

Н

паренхиматозная

ВН

ВН

ВН

МВН

желтуха –

МВН

Н

два одномерных

МВН

ВН

признака

МВН

МВН

 

Н

Н

 

Н

ВН

2. Механическая

Н

МВН

желтуха – двумерный,

ВН

Н

паренхиматозная

ВН

ВН

ВН

МВН

желтуха – двумерный

МВН

Н

 

МВН

ВН

 

МВН

МВН

 

 

127

Поставленных диагнозов

Всего

Правиль ных

Неправи льных

Неопред еленных

CE

 

 

 

 

4

 

 

 

 

5

6

7

8

16

5

0

11

0,617

6

1

0

5

0,645

7

2

1

4

0,655

15

0

0

15

0,501

36

0

0

36

0,576

158

62

11

85

0,713

0

0

0

0

0

4

0

0

4

0,350

153

19

2

132

0,662

16

5

0

11

0,605

5

1

0

4

0,745

7

2

1

4

0,615

15

0

0

15

0,524

36

0

0

36

0,591

158

45

8

105

0,708

0

0

0

0

0

4

0

0

4

0,398

152

33

3

116

0,684

Продолжение таблицы 5.10

1

2

3

4

5

6

7

8

 

Н

Н

16

5

0

11

0,647

3. Механическая

Н

ВН

5

1

0

4

0,693

Н

МВН

7

3

2

3

0,679

желтуха – два

ВН

Н

15

0

0

15

0,482

одномерных,

ВН

ВН

36

0

0

36

0,531

 

паренхиматозная

ВН

МВН

158

8

3

147

0,683

МВН

Н

0

0

0

0

0

желтуха – двумерный

МВН

ВН

4

0

2

2

0,278

 

 

МВН

МВН

153

36

3

114

0,662

 

Н

Н

16

5

0

11

0,582

4. Механическая

Н

ВН

5

1

0

4

0,751

Н

МВН

7

2

1

4

0,581

желтуха – двумерный,

ВН

Н

15

0

0

15

0,538

 

паренхиматозная

ВН

ВН

36

2

0

34

0,621

ВН

МВН

158

87

16

55

0,734

желтуха – два

МВН

Н

0

0

0

0

0

одномерных

МВН

ВН

4

0

0

4

0,546

 

 

МВН

МВН

152

36

2

114

0,669

Н – норма (для значений признака, не превышающих норму); ВН – выше нормы (для значений, превышающих норму);

МВН – много выше нормы (для значений, намного превышающих норму) Основным критерием для выбора способа объединения ДП являлся

коэффициент эффективности. То есть выбирался тот способ объединения, при котором CE является наибольшим.

Таблица 5.11 Выбор объединения ДП в зависимости от категории признаков

Категории ДП для

 

 

механической и для

 

Выбор в пользу объединения двух ДП в

паренхиматозной желтухи

CE

Категории для

Категории для

 

двумерный признак

билирубина

билирубина

 

 

непрямого

прямого

 

 

Н

Н

0,647

Механич. – 1-мерные, паренхим. – 2-мерный

Н

ВН

0,751

Механич. – 2-мерный, паренхим. – 1-мерные

Н

МВН

0,679

Механич. – 1-мерные, паренхим. – 2-мерный

ВН

Н

0,581

Механич. – 2-мерный, паренхим. – 1-мерные

ВН

ВН

0,621

Механич. – 2-мерный, паренхим. – 1-мерные

ВН

МВН

0,734

Механич. – 2-мерный, паренхим. – 1-мерные

МВН

Н

0

 

МВН

ВН

0,546

Механич. – 2-мерный, паренхим. – 1-мерные

МВН

МВН

0,684

Механич. – 2-мерный, паренхим. – 2-мерный

 

 

 

128

В таблице для каждой категории ДП найден наилучший способ их объединения. Теперь для этих признаков вопрос объединения или не объединения решается для каждого больного индивидуально, в зависимости от величины признаков, от попадания их в ту или иную категорию. Например, у пациента ДП оказались в категориях: «норма» – для непрямого и «выше нормы» – для прямого билирубина. Тогда лучшим вариантом объединения признаков будет: двумерный признак – для механической желтухи и два одномерных признака – для паренхиматозной желтухи. Так же детально рассматривалось объединение всех пар признаков.

При этом проблемой являлся (и остался) выбор признаков для объединения в один многомерный признак. Дело в том, что признак можно объединить в пару не только с одним признаком, но и с несколькими другими признаками. Выше мы объединяли наиболее зависимые признаки, чтобы в наибольшей мере избавиться от погрешностей, возникающих при рассмотрении зависимых признаков как независимых. Возможны и другие подходы к выбору пар признаков для объединения. Например, можно выбрать те пары, у которых CE диагностики – наибольший (максимум CE ).

Для диагностики реально использовалось 19 ДП, рассматриваемых в течение 10 дней (то есть теоретически до 190 признаков). Возникает вопрос, с каким из других признаков объединить в пару данный признак? Один из подходов к выбору пар состоял в том, что каждый признак использовался один раз, поскольку повторное использование признака не дает существенно новой диагностической информации. То есть каждый признак входил только в одну пару. Формирование пар, исходя из изложенного подхода и принципа максимума CE , рассмотрим на примере диагностики по четырем признакам.

129

Таблица 5.12 Коэффициент эффективности диагностики для всех пар, составленных из 4-х ДП

Признак

Признак

CE при рассмотрении признаков

Эффект

N

M

как одномерных

объединенных в

от

 

 

(независимых)

двумерный

объединения

1

2

0.7

0.8

0.1

1

3

0.8

0.7

-0.1

1

4

0.6

0.9

0.3

2

3

0.6

0.7

0.1

2

4

0.7

0.9

0.2

3

4

0.8

0.9

0.1

Обозначения: N и M – номера признаков.

По этим данным можно рекомендовать объединения признаков: 1 – 2, 1 – 4, 2 – 3, 2 – 4, 3 – 4. Объединение признаков 1 – 3 нецелесообразно, так как эффект от объединения – отрицателен.

Продолжим выбор пар признаков для диагностики, ограничиваясь вариантом, когда каждый признак участвует в диагностике только один раз. По данным таблицы 5.12, для диагностики перспективны следующие 3 варианта наборов

признаков и их пар:

 

1) 1 – 2, 3 – 4;

2) 1 – 4, 2 – 3; 3) 2 – 4, 1 – 3.

Далее необходимо выбрать один из вариантов объединения. Например, по следующему алгоритму. Пары признаков (табл. 5.12) сортируются по эффекту от объединения. Результаты, полученные после сортировки, приведены в таблице 5.13.

Таблица 5.13

Коэффициент эффективности диагностики для всех пар из четырех признаков, после сортировки

Признак

Признак

CE при рассмотр

ении признаков

Эффект от

как одномерных

N

M

объединенных

объединения

(независимых)

в двумерный

 

 

 

 

1

4

0.6

0.9

0.3

2

4

0.7

0.9

0.2

1

2

0.7

0.8

0.1

2

3

0.6

0.7

0.1

3

4

0.8

0.9

0.1

На основании этих данных (приведенных в таблице 4 результатов сортировки) в пару объединяем признаки, показавшие максимальный эффект от объединения. Это пара 1 – 4 . Далее находим другие пары (вниз по таблице 5.13), признаки

130

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение