Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции ГМУ Документ Microsoft Word.doc
Скачиваний:
217
Добавлен:
14.05.2015
Размер:
1.64 Mб
Скачать

Лекция 10. Дискриминантный анализ

1. Основные сведения о дискриминантном анализе

Дискриминантный анализ это раздел многомерного статистического анализа, содержанием которого является разработка методов решения задач различия (дискриминации) объектов наблюдения по определенным признакам.

Если перед вами стоит задача как по результатам измерений отнести объект к одному из нескольких классов, то применяется дискриминантный анализ.

Методы дискриминантного анализа позволяют построить на основе ряда предположений классификационное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий, например, вероятность ложной классификации или заданную пользователем функцию потерь. Выбор критерия определяется пользователем из соображений ущерба, который он понесет из-за ошибок классификации.

Методы дискриминантного анализа находят применение в различных областях: социологии, психологии, медицине, экономике и т.д. Например они применяются для разбиения совокупности предприятий на несколько однородных групп, по значениям каких–то показателей производственно–хозяйственной деятельности. Для оценки финансового состояния своих клиентов при выдаче им кредита банк классифицирует их на надежных и не надежных по ряду признаков.

Пусть результатом наблюдения над объектом является реализация k– мерного случайного вектора. Задача дискриминации состоит в разбивке всего множества реализаций рассматриваемой величины на некоторое число группи последующем отнесении нового наблюдения в одно из них, используя некоторое решающее правило. При этом информация об истинной принадлежности объекта считается недоступной.

Правило дискриминации выбирается в соответствии с определенным принципом оптимальности на основе априорной информации о совокупностях извлеченного объекта.

Наиболее изучен случай, когда известно, что распределение векторов признаков каждой совокупности нормально, но нет информации о параметрах этого распределения. Здесь естественно заменить неизвестные параметры распределения дискриминантной функции их лучшими оценками. Правило дискриминации можно основывать на отношении правдоподобия.

Аппарат дискриминантного анализа разрабатывался, начиная с конца 50 – х годов XXвека. Дискриминантным анализом занимались П. Ч Махалонобис, Р. Фишер, Г. Хоттелинг и др.

Исторически первой в дискриминантном анализе была модель Фишера, в которой предполагается, что наблюдаемые векторы имеют многомерное нормальное распределение с невырожденной ковариационной матрицей и вектором средних, разным для разных классов.

2. Проведение дискриминантнрого анализа в пакете «Stadia»

В пакете Stadiaдля дискриминантного анализа исходные данные представляют в виде матрицы размеровв которой, первыестолбцов содержат значенияпеременных дляобъектов, а- я переменная в качестве своих значений содержат для каждого объекта номер его класса (натуральные числа от 1 до, где- число классов). Объекты (строки) матрицы могут располагаться произвольно относительно номеров классов. Если кроме вычисления дискриминантной функции нужно с ее помощью классифицировать ряд новых объектов, то такие объекты также исходно включают матрицу данных с номером класса 0.

В Блоке «Статистические методы» в разделе «многомерные методы» при выборе «p– Дискриминантный» в ходе вычислений ищется набор дискриминирующих функций, обеспечивающих классификацию объектов на заданное числоклассов:

,

Выдача результатов включает

– суммарное межкластерное расстояние Махалонобиса =между классами с уровнем значимости =. Для нулевой гипотезы(о невозможности разбиения совокупностей объектов на заданное число классов) по хи – квадрат критерию сстепенями свободы;

– коэффициенты дискриминирующей функции, обеспечивающей отнесение объектов к данному классу, отдельно для каждого класса;

– таблицу, где для каждого объекта (первый столбец) указывается номер его класса(второй столбец), расстояние Махаланобиса(от объекта до центра класса), уровень значимостинулевой гипотези «» (объект может быть отнесен к данному классу) по критерию хи – квадрат с- степенями свободы и апостеорная вероятностьотнесения объекта к этому классу.

Если соответствующая нулевая гипотеза может быть принята.

Пример 1. Даны данные о 10 объектах (см. таблицу), каждый из которых представлен измерениями по двум переменным. Третья переменная представляет номера предполагаемых классов отнесения этих объектов. Причем объект №7 не отнесен ни к какому классу (имеет №0). Требуется определить, к какому классу он принадлежит?

№ объекта

Признак 1

Признак 2

Класс

1

1.4

2.1

1

2

2.8

2.2

1

3

10.3

3.7

2

4

13.2

4.2

2

5

3.5

3.1

1

6

12.8

8.899

2

7

11.9

3.3

0

8

3.8

11.7

3

9

6.1

13.1

3

10

1.3

9.399

3

Для выполнения задания проделайте следующие пункты

1. Откройте чистый рабочий лист в пакете Stadia.

2. Заполните таблицу на этом листе без 1 столбца.

3. Выполните команды: Статист=F9, среди многомерных методов выбратьP– дискриминантный (Pозначает нажать буквуPдля быстрого выполнения команды).

В итоге получаем результаты:

ДИСКРИМИНАНТНЫЙ АНАЛИЗ. Файл: dikrim.std

Расстояние Махаланобиса=42,59, значимость=5,157E-6

Класс <--- Коэффициенты дискриминантной функции:a[0],a[1],... --->

1 -1,116 0,6394 0,2395

2 -26,44 5,137 -1,668

3 -19,03 -1,794 3,938

Объект Класс D^2 Значим Вероят.отнесения

1 1 0,5596 0,7559 1

2 1 0,1083 0,9473 1

3 2 1,152 0,562 1

4 2 2,623 0,2694 1

5 1 0,2813 0,8688 1

6 2 3,526 0,1715 1

7 2 2,077 0,354 1

8 3 0,03831 0,981 1

9 3 1,794 0,4078 1

10 3 1,917 0,3835 1

Выводы: как показывают результаты дискриминантного анализа, предполагаемая классификация оказалась эффективной (уровень значимости близок к нулю для гипотезы о нулевом межкластерном расстоянии ). Объект №7 с вероятностью 1 отнесен ко второму классу.