Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Metod(ksmd5)

.pdf
Скачиваний:
21
Добавлен:
02.02.2015
Размер:
1.07 Mб
Скачать

 

 

N

 

 

X

 

 

 

N

 

 

xi

 

 

 

 

i=1

N

 

xi

 

i=1

 

N

 

2

 

xi

i=1

 

 

,

 

 

N

 

 

 

yi

 

 

i=1

 

 

Y =

 

 

 

 

N

 

yi xi

 

 

 

 

 

i=1

 

;

линейная множественная регрессия

 

 

N

N

 

N

 

 

 

N

xi1

xi2

 

xip

 

 

 

i=1

i=1

 

i=1

 

 

 

N

N

N

 

N

 

 

 

xi1

2

xi1xi2

xi1xip

 

xi1

 

i=1

i=1

i=1

 

i=1

 

,

X

N

N

N

 

N

 

xi2

xi2 xi2

2

xi2 xip

 

xi2

 

i=1

i=1

i=1

 

i=1

 

 

 

 

 

 

 

 

 

 

 

N

N

N

 

N

 

 

xip

xip xi1

xip xi2

 

2

 

 

xip

 

 

 

i=1

i=1

 

i=1

 

 

i=1

 

 

 

нелинейная однофакторная регрессия

 

 

N

 

 

 

yi

 

 

 

i=1

 

 

 

N

 

 

 

yi xi1

 

 

i=1

 

Y =

N

 

 

yi xi2

 

 

i=1

 

 

 

 

 

 

 

N

 

 

yi xip

 

 

 

 

 

 

i=1

 

;

(2.3)

 

 

N

N

 

N

 

 

 

N

xi

xi2

 

xip

 

 

 

i=1

i=1

 

i=1

 

 

 

N

N

N

 

N

 

 

 

xi

xi2

xi3

xip

1

 

i=1

i=1

i=1

 

i=1

 

 

X

N

N

N

 

N

 

,

 

xi2

xi3

xi4

xip 2

 

i=1

i=1

i=1

 

i=1

 

 

 

 

 

 

 

 

 

 

 

N

N

N

 

N

 

 

xip

xip 1

xip 2

xi2 p

 

 

 

 

 

 

 

 

 

i=1

i=1

i=1

 

i=1

 

 

 

 

N

 

 

 

yi

 

 

 

i=1

 

 

 

N

 

 

 

yi xi

 

 

i=1

 

Y =

N

 

 

 

2

 

 

yi xi

 

i=1

 

 

 

 

 

 

 

N

 

 

 

p

 

 

yi xi

 

 

 

 

 

i=1

 

;

(2.4)

нелинейная множественная регрессия. Для построения матрицы X полином преобразуется к линейному виду путем ввода новых

аргументов

 

:

z

z1

x1

 

 

z2

x2

 

 

z p x p

30

z

 

 

2

 

p+1

= x

 

 

 

1

 

z

 

 

2

 

p+2

= x

 

 

 

2

 

 

 

 

 

z

 

 

2

 

2 p

= x

 

 

 

p

 

 

 

 

 

 

Обозначив таким образом старые переменные x и вычислив но-

вые аргументы

 

, получаем линейный полином

 

z

y(z ) , после чего си-

стема решается, как при линейной множественной регрессии.

Решение системы линейных алгебраических уравнений

 

 

 

методом Гаусса

 

Решение системы (2.2) в матричном виде требует расчета обрат-

ной матрицы

X

1

, что при больших размерностях исходной матрицы

 

X является нетривиальной задачей. Поэтому для решения системы линейных алгебраических уравнений с большим количеством неизвест-

ных (компонентов вектора

 

a ) целесообразно использовать метод

Гаусса.

Метод Гаусса состоит в том, что сначала исходная система (3.5) превращается в верхнюю треугольную, причем это преобразование называют прямым ходом метода Гаусса, в результате которого получим:

X

00

a

0

 

X

a

 

 

 

X

0 p

a

p

 

 

 

 

 

01 1

 

 

 

 

 

 

 

 

 

 

 

X

a

 

 

 

X

1p

a

p

 

 

 

 

 

 

 

11 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

pp

a

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y0 Y1

Yp

.

При таких преобразованиях может получиться, что диагональный элемент равен нулю (а делить на нуль нельзя). Более того, если коэффициент X kk мал по величине, то в промежуточном результате получаются большие числа (после деления), из-за чего происходит потеря точности. При числе уравнений более 20 30 решение может расходиться (матрица плохо обусловлена), поэтому в алгоритме Гаусса предусмотрен выбор ведущего элемента, суть которого заключается в следующем. На каждом этапе преобразования просматривается k

31

столбец и в качестве основного k-го уравнения берется то, у которого значение X ki максимально.

Обратный ход метода Гаусса состоит в последовательном вычис-

лении коэффициентов

 

(начиная со старшего

a p ) из треугольной

a

системы уравнений.

 

 

 

Показатели качества регрессионной диагностической модели

Рассмотрим основные показатели качества регрессионной диагностической модели:

остаточная сумма квадратов

2

N

 

2

 

 

 

 

 

,

 

( yi a0 a xi )

 

 

i 1

 

 

 

где

yi

– экспериментальное значение целевого признака в i-м экспе-

 

 

T

 

 

 

 

 

 

 

 

рименте; xi (xi1, xi2 , , xip )

– вектор исходных значений признаков

 

в i-м эксперименте; N – количество экспериментов;

a0

– свободный

 

 

 

 

 

 

T

 

 

 

член уравнения регрессии;

a (a1

, a2 , , a p )

– вектор коэффициентов

 

регрессионной модели;

 

 

 

 

 

 

 

 

 

 

несмещенная оценка дисперсии ошибки

 

 

 

 

 

 

 

2

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N p 1

 

 

 

 

 

 

 

 

 

 

 

 

где N – количество экспериментов; p – количество коэффициентов регрессионной модели;

оценка дисперсии прогнозируемой переменной

где

 

 

1

N

 

 

 

2

( yi my )

2

;

 

y

N 1

 

 

 

i 1

 

 

 

 

 

 

 

my

– оценка среднего значения целевого признака y;

коэффициент детерминации

 

 

N 2 22 y .

N 2y

32

Коэффициент детерминации

 

2

представляет собой квадрат ко-

 

эффициента корреляции между экспериментальными значениями пе-

ременной

yi

и значениями, рассчитываемыми с помощью модели

 

 

T

 

 

yi (x) a0

a

x

(квадрат коэффициента множественной корреляции).

 

Статистический смысл коэффициента детерминации заключается в том, что он показывает, какая доля зависимой переменной y объясня-

ется построенной функцией регрессии

 

 

 

 

 

y(x) ;

 

 

 

 

 

 

оценка дисперсии коэффициентов регрессии

 

 

 

 

 

 

2

1

 

 

 

1

 

T

1

 

 

 

 

 

da

 

 

 

da

 

 

 

 

 

,

 

 

mx ) ,

 

 

 

N

X ii

N

(1 mx X

 

 

 

 

i

 

 

 

 

 

0

 

 

 

 

 

 

 

где

1

– соответствующий диагональный элемент обратной матрицы

X ii

X

1

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

проверка гипотезы H0

: a1

a2 ap 0

, то есть гипотеза о

том, что совокупность признаков

 

x1, , x p не улучшает описания це-

левого признака по сравнению с тривиальным описанием yi my . Ги-

потеза проверяется с помощью следующего критерия Фишера

 

 

 

(N p 1)

2

 

 

 

fкр

.

 

 

 

p(1

2

)

 

 

 

 

 

 

 

 

 

 

 

 

Гипотеза

H0

отклоняется, если

 

fкр > f1 ( p, N p 1)

, где

f1 ( p, N p 1) –

случайная величина,

имеющая F-распределение

Фишера с p и N p 1 степенями свободы; – вероятность ошибки 1- го рода при принятии основной гипотезы;

проверка гипотезы H0 : a j 0 , то есть проверяется гипотеза о

равенстве нулю каждого из коэффициентов регрессии в отдельности. Для этого вычисляется значение критерия Стьюдента

t

кр

 

 

 

Гипотеза H0 отклоняется,

a

 

j

.

d

 

a

 

j

 

если tкр t1 2 (N p 1) , где

33

t1

(N p 1) – случайная величина, имеющая

 

2

 

юдента с N p 1 степенями свободы.

 

 

Здесь следует подчеркнуть, что принятие

H

t-распределение Сть-

0

еще не подтвержда-

ет того, что рассматриваемый признак нужно исключить из модели. Этого делать нельзя, поскольку суждение о ценности данного признака может выноситься, исходя из анализа совокупного взаимодействия в модели всех признаков. Поэтому принятие основной гипотезы служит только «сигналом» о возможной неинформативности того или иного признака.

Порядок выполнения лабораторной работы

1.Использовать ТЭД лабораторной работы 1 в качестве ис-

ходных данных.

2.В соответствии с индивидуальным заданием выбрать тип ре-

грессионной зависимости, факторы и отклик для построения ре-

грессионной модели (в табл. 2.1 указаны столбцы в файле ksmd_v#.xls).

3.Рассчитать параметры регрессии для каждого класса заболева-

ний.

3.1.Отсортировать исходную ТЭД по номеру диагноза.

3.2.Полученную ТЭД разделить на части таким образом, чтобы в каждой таблице находились данные о пациентах с одинаковым диагнозом.

3.3.Вычислить элементы X и Y для каждой из полученных таблиц (то есть для каждого класса заболеваний) для построения регрессии.

3.3.1.Линейная множественная регрессия по (2.3).

3.3.2.Нелинейная однофакторная регрессия степени 3 по (2.4).

3.4.Решить полученные системы уравнений методом Гаусса.

3.4.1. Прямой ход метода Гаусса. Для k 0, p 1 выполнить следующее:

в k-м уравнении выбрать ведущий элемент X kj из условия

34

X kj

max X

i k , p

ki

 

;

 

если

j k , то есть ведущий элемент располагается не в k

уравнении, то поменять местами k-е и j-е уравнения;

 

преобразовать элементы матрицы X по выражению:

где та);

i

 

 

 

 

X

 

 

 

 

 

 

X ij

X ij

kj

X ik

,

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

kk

 

 

 

 

k, p

– номер уравнения,

j k, p

– номер столбца (коэффициен-

 

 

 

 

 

 

 

 

 

 

 

преобразовать элементы вектора-столбца Y

по выражению

 

Y Y

Yk

 

X

ik

.

 

 

 

 

 

 

 

i

i

X kk

 

 

 

 

 

 

 

 

 

 

 

 

3.4.2. Обратный ход метода Гаусса. Определить параметры уравнения регрессии (начиная с коэффициента со старшим номером):

выражение для вычисления параметра a p

 

 

 

Y

a

 

 

p

p

X

 

 

 

 

 

 

 

 

pp

;

выражение для вычисления остальных параметров регрессии

 

 

 

 

p

 

 

 

 

 

 

Y

 

 

X

kj

a

j

 

 

k

 

 

 

a

 

 

 

j k+1

 

 

 

k

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

kk

 

 

 

 

,

k

( p 1) 0

.

4. Оценить качество полученных диагностических моделей.

4.1. Остаточная сумма квадратов

2

.

4.2. Несмещенная оценка дисперсии ошибки 2 .

4.3. Коэффициент детерминации

2

.

 

4.4. Проверка гипотезы

H0

:

a1 a2

ap

4.5. Проверка гипотезы

H0

:

a j 0 .

0

.

5.Сделать выводы по полученным значениям показателя качества для каждой регрессионной зависимости.

6.Оформить отчет по лабораторной работе.

35

Индивидуальные задания

По 2-й цифре номера в журнале выбрать индивидуальное задание

(табл. 2.1).

Таблица 2.2 – Индивидуальные задания

2-я цифра

 

 

 

 

 

 

 

 

 

 

номера в

0

1

2

3

4

5

6

7

8

9

журнале

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Имя файла

1

2

1

2

1

2

1

2

1

2

ksmd_v#.xls

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Регрессия

3.3.1

3.3.1

3.3.2

3.3.2

3.3.1

3.3.1

3.3.2

3.3.2

3.3.1

3.3.2

 

 

 

 

 

 

 

 

 

 

 

Факторы

F, G,

F, G,

F

G

F, G,

F, G,

I

G

F, G,

I

I

I

I

I

I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отклик

J

L

K

M

N

P

O

Q

J

K

 

 

 

 

 

 

 

 

 

 

 

Показатель

4.1

4.2

4.3

4.4

4.5

4.1

4.2

4.3

4.4

4.5

качества

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Содержание отчета

 

 

 

 

1.Тема, цель лабораторной работы.

2.Индивидуальное задание.

3.Текст программы.

4.Аналитический вид полученных регрессионных диагностических моделей.

5.Значения показателей качества полученных регрессионных диагностических моделей.

6.Выводы, сделанные на основании полученных результатов.

Контрольные вопросы

1.В чем смысл регрессионного анализа?

2.Что такое регрессия?

3.Какие виды регрессионных зависимостей вы знаете?

36

4.На какие виды делят регрессии по типу функциональной зависимости?

5.На какие виды делят регрессии по количеству факторов?

6.В чем смысл метода наименьших квадратов?

7.Как определяются параметры уравнения регрессии?

8.Как определить коэффициенты нелинейной однофакторной регрессии, используя соотношения для линейной множественной регрессии?

9.Как определить коэффициенты нелинейной множественной регрессии, используя соотношения для линейной множественной регрессии?

10.Как решить систему линейных уравнений методом Гаусса?

11.Что такое ведущий элемент?

12.Почему необходимо искать ведущий элемент?

13.В чем смысл прямого хода метода Гаусса?

14.В чем смысл обратного хода метода Гаусса?

15.Какие показатели качества регрессионной диагностической модели вы знаете?

37

3. СИНТЕЗ ДИАГНОСТИЧЕСКИХ ПРАВИЛ НА ОСНОВЕ ДЕТЕРМИНИСТСКОЙ ЛОГИКИ

Цель работы: изучение метода синтеза диагностических правил в КСМД, основанного на детерминистской логике и на расстоянии Хемминга.

Метод, основанный на детерминистской логике и на расстоянии Хемминга

Фундаментальная задача диагностики – это определение количественной связи между признаками и заболеваниями, то есть установление некоторых критериев, позволяющих указывать, насколько тот или другой признак «симптоматичен» для данного заболевания.

Назначение детерминистской логики состоит в использовании для целей диагностики определенных (детерминистских) связей между дихотомическими признаками и заболеваниями. Дихотомический (или

простой) признак

x j – это система, имеющая одно из двух возможных

состояний: s j

наличие признака, s j – отсутствие признака [8]. В

качестве исходных данных для детерминистской логики выступает медицинская память системы.

Содержание медицинской памяти – это система чисел, связывающая признаки с заболеваниями (табл. 3.1).

Каждый ряд – это определенное заболевание Bi , а каждый стол-

бец соответствует тому или иному признаку x j . При пересечении ря-

дов и столбцов стоят P(s j / Bi ) – условные вероятности наличия j-го

дихотомического признака при i-м заболевании. Самый левый столбец таблицы содержит априорные вероятности заболеваний P(Bi ) , а нижняя строка – априорные вероятности наличия дихотомических признаков P(s j ) . Содержащиеся в медицинской памяти вероятности можно получить из статистического анализа ТЭД.

38

Таблица 3.1 – Структура медицинской памяти

 

 

 

 

x

 

x

2

 

 

x

j

 

 

 

x

m

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P(B )

B

P(s

/ B )

P(s

/ B )

P(s

m

/ B )

1

 

1

1

1

 

2

 

1

 

 

 

1

 

P(B )

B

2

P(s

/ B

)

P(s

/ B

)

P(s

m

/ B

)

2

 

 

1

2

 

2

 

2

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P(Bl )

Bl

P(s1 / Bl )

P(s2 / Bl )

...

P(s

/ B )

...

P(sm / Bl )

j

 

 

l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P(B

)

B

k

P(s

/ B

)

P(s

/ B

)

P(s

m

/ B

)

k

 

 

1

k

 

2

 

k

 

 

 

k

 

 

 

 

 

P(s )

 

P(s

)

 

P(s

j

)

P(s

)

 

 

 

 

 

 

1

 

 

2

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Детерминистские связи бывают двух типов:

во-первых, может оказаться, что в данном классе заболеваний существуют некоторые признаки или комплексы признаков (синдромы), которые однозначно определяют данное заболевание (то есть при данных признаках это заболевание бывает всегда);

во-вторых, существуют признаки, которые всегда наблюдаются при каких-то заболеваниях, другие, – наоборот, никогда не встречаются при некоторых заболеваниях.

Такие сведения позволяют исключить из дальнейшего рассмотрения определенную группу заболеваний. Поэтому основным содержанием детерминистской логики является исключение из рассмотренного класса тех заболеваний, которые невозможны у данного больного.

Если признак всегда встречается при заболевании

Bi

( xij s j ,

i 1, N ), то в медицинской памяти он будет отмечен как 1, то есть

P(s j / Bi ) 1.

И наоборот, если признак никогда не встречается при

заболевании

Bi

( xij s j ), то в медицинской памяти он будет отмечен

как 0, то есть

P(s j / Bi ) 1 P(s j / Bi ) 1 1 0 . Это детерминистская

связь 1-го типа.

Группы признаков (синдромы), полностью определяющие заболевание Bi представляют собой детерминистскую связь 2-го типа, то

39

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]