Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Metod(ksmd5)

.pdf
Скачиваний:
21
Добавлен:
02.02.2015
Размер:
1.07 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ

НАЦИОНАЛЬНЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ "ХАРЬКОВСКИЙ ПОЛИТЕХНИЧЕСКИЙ ИНСТИТУТ"

А. И. ПОВОРОЗНЮК, А. Е. ФИЛАТОВА, А. Н. ШЕИН

КОМПЬЮТЕРНЫЕ СИСТЕМЫ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

ЛАБОРАТОРНЫЙ ПРАКТИКУМ Часть 2

Утверждено редакционноиздательским советом университета, протокол №2 от 21.06.07

Харьков 2007

ББК 32.973-02 П 42

УДК 681.322

Рецензенты: В. И. Сухоруков, д-р мед. наук, засл. деятель науки и техники Украины, академик Академии космонавтики им. К. Э. Циолковского РФ, зав. отделом нейропсихокибернетики Института неврологии, психиатрии и наркологии Академии мед. наук Украины (г. Харьков); А. И. Бых, д-р физ.-мат. наук, проф., зав. кафедрой биомедицинских электронных устройств и систем Харьковского национального университета радиоэлектроники.

Лабораторний практикум надає уявлення про практичну розробку програмних засобів діагностичних комп’ютерних систем. Розглядаються питання обробки експериментальних даних та синтезу діагностичних правил.

Призначений для студентів спеціальності 7.091503 “Спеціалізовані комп’ютерні системи”.

П 42 Поворознюк А. И. , Филатова А. Е., Шеин А. Н.

Компьютерные системы медицинской диагностики: Лабораторный практикум. Ч.2. – Харьков: НТУ "ХПИ", 2007. – 96 с. – На русск. яз.

ISBN

Лабораторный практикум дает представление о практической разработке программных средств диагностических компьютерных систем. Рассматриваются вопросы обработки экспериментальных данных и синтеза диагностических правил.

Предназначен для студентов специальности 7.091503 “Специализированные компьютерные системы”.

Ил. 33. Табл. 9. Библиогр. 11 назв.

ББК 32.973-02

А. І. Поворознюк, ISBN Г.Е. Філатова,

О. М. Шеін, 2007

ВВЕДЕНИЕ

Вторая часть настоящего издания посвящена вопросам обработки экспериментальных данных в компьютерных системах медицинской диагностики (КСМД), синтеза диагностических правил, основам теории распознавания образов и включает в себя пять разделов.

Впервом разделе «Предварительная обработка экспериментальных данных» рассматриваются вопросы построения таблиц экспериментальных данных (ТЭД). По ТЭД строится матрица связей, характеризующая отношения между признаками. Для определения меры связей между признаками используется корреляционный анализ для числовых и ординальных переменных. По экспериментальным данным определяются также взаимоотношения между объектами, представляющие собой элементы матрицы близостей (удаленностей), где в качестве мер близостей (удаленностей) используются различные типы расстояний между объектами.

Во втором разделе «Построение регрессионных диагностических моделей» излагаются способы построения диагностических моделей в КСМД с помощью методов регрессионного анализа. Для определения параметров диагностической модели применяется метод наименьших квадратов, с помощью которого осуществляется построение регрессионных моделей, описывающих экспериментальные данные, и оценка показателей их качества. При построении моделей используются линейная множественная и нелинейная однофакторная регрессии. Для оценки адекватности модели применяются различные статистические показатели.

Втретьем разделе «Синтез диагностических правил на основе

3

детерминистской логики» рассматривается использование расстояния Хемминга и определенных (детерминистских) связей между дихотомическими признаками и заболеваниями для диагностических целей. В результате применения первого этапа детерминистской логики устанавливается по возможности диагноз. Если диагноз не установлен, на втором этапе составляется перечень всех возможных заболеваний по анализируемым признакам для данного пациента. При этом все невозможные заболевания исключаются.

Вчетвертом разделе «Синтез диагностических правил на основе информационно-вероятностной логики» анализируются информационные меры дихотомических признаков, после чего производится диагностика, основанная на информационно-вероятностной логике. В качестве возможных используется перечень заболеваний, оставшихся после детерминистской логики. После выполнения двух этапов ин- формационно-вероятностной логики устанавливается диагноз. При этом на втором этапе возможно неоднократное изменение пороговых значений, позволяющих установить окончательный диагноз для данного пациента.

Впятом разделе «Синтез диагностических правил с применением теории распознавания образов» рассматриваются базовые понятия теории распознавания образов. В качестве методов диагностики рассмотрены метод сравнения с прототипом (эталоном) и метод «k ближайших соседей».

Все диагнозы, полученные в третьем, четвертом и пятом разделах, сравниваются с диагнозами, имеющимися в ТЭД.

Перечень и последовательность выполнения работ предполагает использование результатов предыдущих работ при выполнении последующих.

Здесь, как и в первой части настоящего издания, в каждом разделе выделены следующие пункты:

цель работы;

теоретическая часть, в которой детально изложен материал, необходимый для практического выполнения работы;

порядок выполнения лабораторной работы с описанием после-

4

довательности действий;

индивидуальные задания;

содержание отчета;

пример выполнения работы, включающий в себя текст программы, реализующей типовое задание, и полученные результаты. Приведенные тексты программ разработаны и отлажены в среде про-

граммирования Borland Pascal;

контрольные вопросы.

Объем изложения теоретической части, приведенный пример текста программы и полученных результатов достаточно для выполнения работы.

Авторы выражают благодарность рецензентам д-ру мед. наук, засл. деятелю науки и техники Украины, академику Академии космонавтики им. К. Э. Циолковского РФ, зав. отделом нейропсихокибернетики Института неврологии, психиатрии и наркологии Академии медицинских наук Украины В. И. Сухорукову и д-ру физ.-мат. наук, проф., зав. кафедрой биомедицинских электронных устройств и систем Харьковского национального университета радиоэлектроники А. И. Быху за критические замечания и профессиональные советы, использованные при подготовке данного издания.

5

1. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Цель работы: изучение принципов построения таблицы экспериментальных данных (ТЭД) типа «объект-признак» и методов их предварительной обработки.

Структура экспериментальных данных

При построении диагностических систем, как правило, все данные, с которыми оперирует система, подвергаются предварительной обработке. Для данных субъективной диагностики и обследования врачей определяется перечень признаков, необходимых для диагностики. Этот перечень оформляется в виде таблиц, с помощью которых происходит накопление информации. То есть каждый пациент (объект) после проведения опроса, измерений «заполняет» в таких таблицах одну строку; данный процесс называют испытанием. Результатами таких испытаний являются некоторые числа, которые в дальнейшем подвергаются обработке. Таким образом, результатом каждого испытания является формирование вектора из m признаков [1]:

где

x j

 

(x , x

x

 

1

– значение j-го признака

 

 

T

,

2

, , x j

, , xm )

для данного пациента .

Для диагностики конкретного пациента признаки объединяются в группы, которые соответствуют определенным заболеваниям. Сам процесс диагностики состоит в том, что после очередного шага испытаний может быть получен ответ на вопрос, к какому классу заболеваний нужно отнести данного пациента, а также достоверность такого заключения (превышение некоторого порога), или же можно получить ответ, что диагностика невозможна и необходимо проведение дополнительных испытаний. Исходным материалом для такого анализа служат результаты экспериментального обследования репрезентативной выборки испытуемых с помощью диагностического теста. Из полученных данных формируется двухмерная ТЭД (табл.1.1) типа «объект-

6

признак».

Таблица 1.1 – Таблица экспериментальных данных

 

Объекты

 

 

 

 

Исходные признаки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(испытуемые)

x1

x2

 

x j

 

xm

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

x

 

x

x

 

1

x

 

 

 

 

 

1

12

 

 

 

1 j

 

 

 

1m

1m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

x22

 

x2 j

 

x2m

x2m

x

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

xi2

 

xij

 

xim

xim

x

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

xN 2

 

xNj

 

xNm

xNm

x

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

x

2

 

x

j

 

x

m

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рассмотрим подробнее принятые в табл. 1.1 обозначения:

N – общее количество объектов (испытуемых);

m – общее количество признаков;

x

 

R

(m)

j

 

 

 

 

– наименование j-го признака;

R(m) – система (пространство) m признаков;

x j – вектор значений j-го признака (показателя или перемен-

ной);

xij – значение j-го признака, измеренное у i-го объекта;

i i-й объект;

 

(x

, , x

)T

x

i

i1

im

 

– вектор признаков (координат) i-го объекта

(реализация i-го объекта);

{ i } – множество объектов.

Особенностью диагностических экспериментальных данных является то, что исходные признаки x j могут быть измерены как в ко-

личественной, так и в номинальной или ординальной шкалах. В самом простом случае все признаки измеряются в одной и той же шкале, но в реальных диагностических ТЭД, как правило, используются несколько

7

типов шкал измерения признаков. Перед применением к данным различных алгоритмов анализа их структуры всегда возникает необходимость применения различных способов их предварительной обработки. Первоначально производится (в случае необходимости) оцифровка дискретных шкал. Под оцифровкой, как правило, подразумевается приведение всех типов признаков к одной количественной шкале.

Всамом простом случае дихотомической шкалы, то есть когда признак может принимать значения «да» или «нет», нет большой разницы в том, какие числа будут приписаны положительному или отрицательному ответу. Самые распространенные варианты: ответу «да» приписывают число 1, ответу «нет» – число 0 или –1.

Вслучае ординальных (порядковых) шкал, как правило, порядок следования градаций признака отражает степень усиления или ослабления того или иного качества. Например, если признак имеет шкалу «плохо–никак–хорошо», то логично приписать градациям метки –1; 0; 1, а вот в случае шкалы «малый–средний–крупный–сверхкрупный» более уместным может оказаться использование логарифмических меток, то есть 0.1; 1; 10; 100. Не имеет большого значения выбор «начала отсчета» шкалы признака, но психологически удобнее измерять в числовой шкале с отрицательными и положительными числовыми метками качество, меняющееся от противоположности к противоположности (как «плохо–хорошо»), а в шкалах с «абсолютным нулем» – постепенное нарастание какого-либо качества (например, степень проявления болезни).

Большей свободой и математическим осмыслением обладает процедура оцифровки номинальных шкал. В этом случае порядок следования и расстояния между градациями признаков не играет роли. Свобода в выборе числовых меток для номинальных шкал дает возможность искусственно упростить структуру набора данных, например, добиться того, чтобы шкалы признаков были максимально скоррелированы друг с другом.

После того как все признаки оказываются описанными в количественной шкале, их обычно центрируют и нормируют.

Первым шагом в статистической обработке данных, как правило, является нахождение точки среднего значения всех признаков – гео-

8

метрического центра многомерного облака точек данных. Обычно удобно сдвинуть все точки данных на один и тот же вектор таким образом, чтобы центр облака оказался в начале координат. Далее следует нормировка – деление всех значений признаков на определенное число таким образом, чтобы значения признаков попадали в сопоставимые по величине интервалы. Любая нормировка данных приводит к тому, что изменяются взаимные расстояния между точками данных. Это можно истолковать как выбор метрики (меры расстояния) иной по сравнению с обычной евклидовой. В качестве такого числа обычно выбирается один из характерных масштабов.

В многомерном облаке данных существует несколько масштабов. Если диапазоны значений для разных признаков очень сильно отличаются друг от друга, то разумно для каждого из них применять собственный масштаб. Для каждого из признаков можно ввести свое среднеквадратичное отклонение j и разброс R j , являющиеся харак-

терными масштабами:

где

xij

 

1

 

 

N

2

 

j

 

 

 

 

N 1

xij x j

,

 

i 1

 

 

 

 

 

 

 

 

 

1

N

 

 

 

x j

xij ,

 

 

 

N

 

 

 

 

i 1

 

 

 

 

 

 

 

 

R j max xij x j

,

 

 

i 1,N

 

 

 

– значение j-го признака, измеренное у i-го объекта;

x j

(1.1)

(1.2)

(1.3)

– сред-

нее значение j-го признака; N – длина выборки.

Структура экспериментальных данных отражается посредством двух основных категорий взаимоотношений между элементами ТЭД – категорий сходства и различия. Сходство и различие элементов ТЭД определяется мерами близости (удаления), а сходство и различие признаков – мерами связи.

Матрица связи задает отношение «признак–признак» и представляет собой двухмерную симметричную квадратную матрицу размером m m :

9

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]