6 курс / Клинические и лабораторные анализы / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л
.pdfМ.Л. ЖМУДЯК, А.Н. ПОВАЛИХИН, А.В. СТРЕБУКОВ, А.В. ГАЙНЕР, А.Л. ЖМУДЯК, Г.Г. УСТИНОВ
ДИАГНОСТИКА ЗАБОЛЕВАНИЙ МЕТОДАМИ ТЕОРИИ ВЕРОЯТНОСТЕЙ
Издательство АлтГТУ
БАРНАУЛ 2006
УДК 519.23/.25
ДИАГНОСТИКА |
ЗАБОЛЕВАНИЙ |
МЕТОДАМИ |
ТЕОРИИ |
|
ВЕРОЯТНОСТЕЙ/ |
М.Л. Жмудяк, А.Н. Повалихин, |
А.В. Стребуков, |
||
А.В. Гайнер, А.Л. Жмудяк, Г.Г. Устинов; |
Алт. |
гос. |
тех. ун-т |
|
им. И.И. Ползунова. – Барнаул: Изд-во АлтГТУ, 2006.–168с. |
|
|||
ISBN 5-7568-0524-9 |
|
|
|
|
Вкниге поставлены и решены задачи: совмещения медицинского и математического подходов к диагностике; диагностики с учетом многократно определенных диагностических признаков (в частности, диагностики с учетом динамики заболеваний); оптимальной последовательности обследования, иными словами, нахождения диагностического признака, наиболее необходимого для дальнейшего уточнения диагноза, и др.
Входе исследований предложены и изучены: диагностика методом наибольшего правдоподобия, алгоритм, повышающий скорость и надежность определения вероятности болезни методом наибольшего правдоподобия; критерий эффективности диагностики, проведенной расчетными методами; использование многомерных распределений при диагностике; имитационные модели болезней для решения методических проблем диагностики и тестирования разрабатываемых методов.
Содержание изложено на 168 страницах, включает 35 рисунков и 30 таблиц, список использованной литературы из 144 публикации.
ISBN 5-7568-0524-9
© М.Л. Жмудяк, А.Н. Повалихин, А.В. Стребуков, А.В. Гайнер, А.Л. Жмудяк, Г.Г. Устинов, 2006
|
Оглавление |
|
Предисловие......................................................................................................................... |
5 |
|
Введение............................................................................................................................... |
5 |
|
Термины и обозначения...................................................................................................... |
6 |
|
Глава 1 Диагностика с использованием искусственного интеллекта и медицинская |
|
|
диагностика желтух............................................................................................................. |
9 |
|
1.1 |
Обзор методов диагностики с помощью искусственного интеллекта ................ |
9 |
1.2 |
Медицинская диагностика желтух........................................................................ |
23 |
Глава 2 Теоретические разработки.................................................................................. |
37 |
|
2.1 |
Совмещение медицинского и математического подходов к диагностике |
|
заболеваний.................................................................................................................... |
37 |
|
2.1.1 Кратко о моделировании................................................................................. |
37 |
|
2.1.2 Использование условных вероятностей ........................................................ |
38 |
|
2.1.3 Дополнение статистики и уточнение распределений .................................. |
39 |
|
2.2 |
Использование многомерных распределений...................................................... |
40 |
2.3 |
Диагностика методом максимального (наибольшего) правдоподобия............. |
43 |
2.3.1 Итерационный алгоритм диагностики заболеваний .................................... |
43 |
|
2.3.2 Обобщение поперек траекторий..................................................................... |
48 |
|
2.3.3 Обобщение по отдельным ДП ........................................................................ |
49 |
|
2.3.4 Обобщение вдоль траекторий......................................................................... |
49 |
|
2.3.5 Диагностирование с использованием «чистого» критерия максимального |
||
правдоподобия........................................................................................................... |
50 |
|
2.4 |
Учет взаимозависимости диагностических признаков и динамики заболеваний |
|
в байесовском подходе к диагностике........................................................................ |
53 |
|
2.4.1 Использование формулы Байеса..................................................................... |
53 |
|
2.4.2 Учет динамики заболеваний при байесовском подходе.............................. |
54 |
|
2.4.3 О совмещении методов диагностики............................................................. |
56 |
|
2.5 |
Определение исследования (анализа), наиболее необходимого для |
|
диагностики.................................................................................................................... |
56 |
|
2.6 |
Оценка результатов диагностики .......................................................................... |
66 |
2.6.1 Уровень надежности и неопределенный диагноз......................................... |
66 |
|
2.6.2 Критерий эффективности диагностики ......................................................... |
67 |
|
2.6.3 Влияние отдельного ДП на диагноз............................................................... |
70 |
|
2.7 |
Модельные болезни и исследование на них теоретических вопросов.............. |
72 |
Глава 3 База данных, вероятности и плотности вероятностей диагностических |
|
|
признаков............................................................................................................................ |
77 |
|
3.1 |
Характеристика статистических данных.............................................................. |
77 |
3.2 |
Дискретные и непрерывные диагностические признаки, построение |
|
гистограмм..................................................................................................................... |
80 |
|
3.2.1 Дискретные и непрерывные диагностические признаки............................. |
80 |
|
3.2.2 Особенности построения гистограмм непрерывных диагностических |
|
|
признаков ................................................................................................................... |
81 |
|
3.3 |
Построение искусственных распределений......................................................... |
87 |
3.4 |
Построение многомерных распределений............................................................ |
90 |
3.5 |
Особенности работы со статистической базой данных ...................................... |
94 |
3.6 |
Исследование взаимозависимости диагностических признаков........................ |
97 |
3.6.1 Независимые и зависимые диагностические признаки в формуле Байеса 97 3
3.6.2 Экспертная оценка зависимости признаков................................................ |
100 |
|
3.6.3 Наборы (ядра) независимых признаков....................................................... |
100 |
|
Глава 4 Учет динамики заболеваний при диагностике............................................... |
103 |
|
4.1 |
Методика учета динамики и взаимозависимость диагностических признаков |
|
....................................................................................................................................... |
|
103 |
4.2 |
Диагностика при многократном определении признака................................... |
107 |
4.3 |
Влияние лечения на динамику заболевания....................................................... |
111 |
Глава 5 Результаты диагностики с применением различных методических приемов |
||
........................................................................................................................................... |
|
115 |
5.1 |
Применение уровня надежности и коэффициента эффективности для оценки |
|
качества диагностики.................................................................................................. |
115 |
|
5.2 |
Серия экспериментов при различных приемах формирований распределений |
|
....................................................................................................................................... |
|
118 |
5.3 |
Серия экспериментов при различных приемах формирования базы данных. 121 |
|
5.5 |
Серия экспериментов с учетом динамики заболеваний.................................... |
132 |
5.6 |
Результаты байесовской диагностики с учетом динамики заболеваний......... |
135 |
Глава 6 Сравнение результатов дифференциальных диагностик методами Байеса, |
|
|
дискриминантного анализа, классификационных деревьев и нейронных сетей...... |
137 |
|
Заключение....................................................................................................................... |
140 |
|
Литература........................................................................................................................ |
142 |
|
Приложение 1 Сходимость итерационного алгоритма и его связь с методом |
|
|
максимального правдоподобия ..................................................................................... |
156 |
|
Приложение 2 Примеры построения гистограмм по различным методикам........... |
161 |
4
Предисловие
Настоящая работа дважды получала поддержку, за которую авторы благодарят проректора АлтГТУ д.ф.-м.н. профессора Б.В. Семкина и организаторов конкурса «Ползуновские гранты». Особую благодарность авторы выражают коллегам – научным сотрудникам Р.Х. Ицекзон и О.Н. Зацепиной, помогавшим на всех этапах работы, и О. В. Ловцкой за полезные научные советы.
Раздел 2.3.5 и приложение 1 написаны в приятном сотрудничестве с Г.Ш. Львом.
Адреса для замечаний и предложений: l_jmoudiak@hotmail.com; pan_brn@list.ru
Введение
Компьютерная (на математической основе) диагностика заболеваний является для врача таким же инструментом, как расчеты для инженера: расчетная диагностика не заменяет врача, но помогает ему. Поэтому актуально развивать методики диагностики и сравнивать их эффективность.
Авторы старались посмотреть на математические методы диагностики как с математической, так и с медицинской точек зрения, что привело к постановке и решению новых задач. Например, в известных работах для диагностики используются диагностические признаки, определенные в один день, признаки в другие дни в расчетах не участвуют. То есть, не учитывается динамика болезни – важнейший при постановке диагноза фактор. Приведенный пример иллюстрирует актуальность создания методики учета динамики заболеваний, что и сделано в этой работе.
В книге предложены пути совмещения врачебного и математического подходов, поставлены и решены задачи об оптимальной последовательности обследования пациента и др. Применяемые вероятностные и статистические методы с использованием базы данных о прошедших лечение больных, собственно, являются одной из форм обращения к накопленному опыту и, как показано в книге, обеспечивают высокий уровень диагностики.
5
j=1,2,3,...,n – номер болезни; i =1,2,3,...,m – номер ДП;
t =1,2,3,...,τ(i) – момент (день), отсчитываемый с начала болезни.
Отсутствие индекса t говорит о том, что есть информация только за один день (момент) или о том, что рассматривается множество величин, относящихся к моментам t1 , t2 , t3 , ..., τ . Обозначение τ(i) использовано потому, что для разных ДП число дней, в которые ДП определялись, разное.
«o» – индекс, указывающий, что величина ДП получена обследованием диагностируемого пациента. Отсутствие этого индекса указывает на то, что величина симптома или анализа или другого ДП относится к данным о течении болезни, статистике вариантов течения болезни, статистике величин ДП при болезни j (т.е. отсутствие индекса «o » говорит о том, что величина не относится к обследованию конкретного пациента, у которого диагностируется болезнь).
Величины
πj – доля больных болезнью j среди больных диагностируемыми болезнями;
P – распределение вероятностей диагностируемых болезней у пациента,
например,
a – величина анализа, рассматривается как переменная (как величина x ) и является общим обозначением любой из возможных величин ДП;
6
ai – величина i -го ДП, например, СОЭ=28 или «есть боль», т.е. « a » может быть непрерывной или дискретной величиной;
– конкретное значение i -го ДП, полученное в результате обследования
– то же, полученное в день t ;
q – распределение, то есть распределение вероятностей дискретного ДП; или плотность распределения вероятностей непрерывного ДП (непрерывно распределенного ДП). Аналогично q обозначает распределение сочетания ДП – распределение многомерного ДП. Под вероятностью будем понимать также выборочные оценки соответствующих величин. q обозначает распределение,
полученное статистически или моделированием.
– распределение i -го ДП при болезни j в момент (день) t ;
распределение определено сбором статистики или относится к модели, к траектории болезни и определяет вероятности или плотности вероятностей при всех значениях ДП. Такое обозначение подчеркивает, что плотность вероятности есть функция от величины a, от величины ДП. Два индекса i в одном обозначении можно не
употреблять, а использовать более краткие обозначения qt |
(a |
) или qt |
(a), или qt . |
|||
|
|
|
j |
i |
ij |
ij |
qt |
(at |
) – вероятность i -го ДП величиной at |
при болезни j в день t . |
|||
ij |
oi |
oi |
|
|
|
|
Вообще говоря, два индекса t в одном обозначении – излишняя |
||||||
информативность, т.к. очевидно, что если ДП величиной aoi |
определен в день t , то |
для определения вероятности или плотности вероятностей разумно использовать
распределение |
qt |
(a ) |
только |
в |
этот |
же |
день |
t . То есть можно |
обойтись |
|
|
|
j |
i |
|
|
|
|
|
|
|
обозначением q |
j |
(at ). |
|
|
|
|
|
|
|
|
|
|
oi |
|
|
|
|
|
|
|
|
q (a ) = {qt1(a ),qt 2(a ),qt3(a ),...,qτ(a )} – |
совокупность распределений |
|||||||||
ij i |
|
ij |
i |
ij i |
ij |
i |
ij |
i |
|
|
ДП i при болезни |
j во все моменты (дни) |
заболевания (или в один из дней, если |
||||||||
нет информации о других днях, или распределение ДП i при болезни |
j , когда |
7
информация о моментах (днях) анализов или днях определения других ДП не рассматривается).
qijt (aoit ) – средняя ордината распределения вблизи величины aoit , полученной
в результате обследования пациента. Когда интервал вблизи величины aoit мал, qijt (aoit ) приближается к qtj(aoit ).
8
Глава 1 Диагностика с использованием искусственного интеллекта и медицинская диагностика желтух
1.1 Обзор методов диагностики с помощью искусственного интеллекта
Анализ литературы показал, что с первых лет применения информационных технологий в здравоохранении одним из ведущих направлений являлись системы поддержки процесса принятия клинических решений, развившиеся в технологии интеллектуальных систем.
В начале восьмидесятых годов в исследованиях по искусственному интеллекту сформировалось самостоятельное направление, получившее название «экспертные системы» [1 – 4 и др.]. Экспертные системы используются для разработки программ, которые при решении задач, трудных для эксперта – человека, получают результаты, не уступающие по качеству и эффективности решениям, получаемым экспертом. Исследователи в области экспертных систем для названия своей дисциплины часто используют также термин «инженерия знаний», введенный Е. Фейгенбаумом как «привнесение принципов и инструментария исследований из области искусственного интеллекта в решение трудных прикладных проблем, требующих знаний экспертов» [7].
Вначале большинство экспертных систем базировалось на правиле продукций: «Если – то», [1 – 4 и др.]. С использованием правила продукций создано много диагностических экспертных систем для конкретных групп болезней [5, 6, 8 – 18 и др.]. Диагностические экспертные системы развивались в направлении их универсализации и расширения возможностей [11 – 18]. Созданы системы, самостоятельно строящие дерево вопросов [12] и т.п.
Одним из популярных методов обнаружения знаний стали алгоритмы поиска ассоциативных правил [19], которые с успехом используются во многих областях, в том числе в задачах медицинского анализа и диагностики [20 – 22].
Использование ассоциативных правил приведено как пример, подтверждающий, что развитие экспертных систем идет в ожидавшемся направлении: универсализации (преодолевается свойственная ранним экспертным системам пригодность только для одной задачи и абсолютная зависимость от
9
эксперта) за счет алгоритмов высокого уровня.
Среди найденных экспертных систем и реализующих их программ имеется и программа: “Дифференциальная диагностика желтух” [23], алгоритм которой, по утверждению авторов этой программы, может помочь развеять сомнения в диагнозе и сократить время диагностики.
Точность определения правильного диагноза экспертными системами имеет большой разброс, а процент правильно определенных диагнозов – невысок. Так, экспертная система медицинской диагностики Diagnos.ru [12] выдает в среднем 70% диагнозов, которые соответствуют истине. Диагностические решения экспертной системы “Эсбад” в 87% случаев совпадают с клиническим диагнозом [16]. Экспертная система МУТАНТ, созданная сотрудниками ЭВЦ Московского университета, позволила получать эффективность только 56% [24]. Впрочем, в источнике говорится о начальных этапах эксплуатации этой системы. Автоматизированная система ранней диагностики наследственных болезней “ДИАГЕН“, позволяющая идентифицировать свыше 1200 форм, показывает эффективность 90% в сравнении с 60% у врачей медико-генетических консультаций
[16].
По результатам обзора складывается впечатление, что заявляемая в публикациях эффективность диагностических программ, основанных на экспертных системах, по-прежнему (как и в годы начала наших исследований) недостаточно высока и изменяется в широких пределах, в основном, от 56 до 90% правильных диагнозов.
Даже во времена, когда экспертные системы были очень распространены и модны, авторам эти системы казались не слишком привлекательными, так как правило продукций «Если – то», в общем-то, фельдшерский подход… Страшно сказать, но развившиеся в последние годы и действительно эффективные методы диагностики, включая нейронные сети, также в основе фельдшерские, конечно, суперфельдшерские, но все же …
Авторам представлялось, что диагностика должна базироваться на моделировании заболеваний, включая их динамику, и математической оценке близости смоделированных «траекторий» развития болезни у конкретного больного
10