Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 7. Многомерные методы и модели. Лекция.doc
Скачиваний:
20
Добавлен:
27.11.2019
Размер:
178.69 Кб
Скачать

§3. Дискриминантный анализ

Дискриминантный анализ представляет собой альтернативу множественного регрессионного анализа для случая, когда зависимая переменная представляет собой не количественную (номинативную) переменную. При этом дискриминантный анализ решает, по сути, те же задачи, что и множественный регрессионный анализ (МРА): предсказание значений «зависимой» переменной, в данном случае - категорий номинативного признака; определение того, какие «независимые» переменные лучше всего подходят для такого предсказания. Структуры исходных данных для дискриминантного и множественного регрессионного анализа практически идентичны, различие заключается лишь в том, что представляет собой «зависимая» переменная Y: для МРА она является количественной, а для дискриминантного анализа - номинативной (классифицирующей) переменной.

В то же время дискриминантный анализ можно определить и как метод классификации, так как «зависимая» переменная - номинативная, то есть она классифицирует испытуемых на группы, соответствующие разным ее градациям. В этом смысле исходными данными для дискриминантного анализа является группа N объектов (испытуемых), разделенная на С классов так, что каждый объект отнесен к одному и только одному классу (градации номинативной переменной). Допускается при этом, что некоторые объекты не отнесены к какому-либо из этих классов (являются «неизвестными»). Для каждого из объектов имеются данные по Р количественным признакам, одним и тем же для этих объектов. Эти количественные признаки называются дискриминантными переменными. Задачами дискриминантного анализа являются: определение решающих правил, позволяющих по значениям дискриминантных переменных отнести каждый объект (в том числе и «неизвестный») к одному из известных классов; определение «веса» каждой дискриминантной переменной для разделения объектов на классы.

Например:

Таким образом, дискриминантный анализ позволяет решить две группы проблем:

1. Интерпретировать различия между классами, то есть ответить на вопросы: насколько хорошо можно отличить один класс от другого, используя данный набор переменных; какие из этих переменных наиболее существенны для различения классов. Сходную задачу решает дисперсионный анализ.

2. Классифицировать объекты, то есть отнести каждый объект к одному из классов, исходя только из значений дискриминантных переменных. Задача классификации связана с получением по данным об «известных» объектах дискриминантных функций «решающих правил», позволяющих по значениям дискриминантных переменных отнести с известной вероятностью каждый объект к одному из классов.

В решении задачи классификации дискриминантный анализ является не заменимым другими методами. Часто дискриминантный анализ называют еще «классификацией с обучением» или «распознаванием образов». В первом случае предполагают, что мы «учимся» классифицировать «неизвестные» объекты по дискриминантным переменным, используя данные об «известных» объектах. Во втором случае под «образом» объекта подразумевается совокупность измеренных для него значений дискриминантных переменных. И дискриминантный анализ позволяет в этом смысле распознать образ «нового» объекта путем отнесения его к известному классу объектов.

Основные результаты дискриминантного анализа:

1. Определение статистической значимости различения классов при помощи данного набора дискриминантных переменных. Показатели - λ-Вилкса, χ2-тест, р - уровень значимости.

2. Классификация «известных» и «неизвестных» объектов при помощи расстояний или значений априорных вероятностей. Качество классификации определяется совпадением действительной классификации и предсказанной для «известных» объектов. Мерой качества может служить вероятность ошибочной классификации как соотношение количества ошибочного отнесения к общему количеству «известных» объектов.

3. Выяснение вклада каждой переменной в дискриминантный анализ. Определяется по значениям критерия F-Фишера, толерантности и статистики F-удаления.