Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания и задания МАД.doc
Скачиваний:
40
Добавлен:
05.05.2019
Размер:
752.64 Кб
Скачать

7. Дискриминантный анализ

Главные понятия

Дискриминантный анализ (Discriminant Analysis) разрабатывает методы решения задач различения (дискриминации) объектов по определенным признакам – дискриминирующим переменным.

Цель дискриминантного анализа: на основе измерения характеристик объектов провести их классификацию, или дискриминацию, т.е. отнести их к одному из нескольких известных классов (групп, видов) некоторым оптимальным способом. При этом важно выяснить, какие из переменных определяют дискриминацию и дают наилучшее предсказание принадлежности.

Дискриминантная функция – функция, с помощью которой определяется принадлежность к некоторому классу. Линейная дискриминантная функция строится как линейная комбинация независимых переменных, участвующих в анализе. Ее коэффициенты определяются из условия максимизации F-отношения, в знаменателе которого находится значение внутригрупповой дисперсии. Таким образом, в одну группу будут отнесены объекты, наиболее близкие по признакам.

При включении независимых переменных в модель руководствуются величинами F-отношения: F-для включения и F-для исключения (переменных). Это граничные значения, с которыми сравниваются F-значения соответствующих переменных при пошаговом выполнении дискриминантного анализа.

Толерантность есть мера избыточности переменной. Переменные с маленьким значением толерантности не вносят индивидуального вклада в дискриминацию.

Лямбда Уилкса (Wilks' lambda). Это стандартная статистика для определения статистической значимости разделяющей способности (дискриминирующей мощности) модели.

Построенные дискриминантные функции подвергаются проверке на качество предсказания принадлежности – выполняется классификация.

Пример 7.1. Дискриминантный анализ.

Этот пример основан на классической выборке, представленной Фишером (1936). Он содержит данные о длине и ширине чашелистиков и лепестков трех сортов ириса (Setosa, Versicol, Virginic).

Цель анализа: изучить возможность дискриминации – определения сорта растения, на основании четырех измерений – длины/ширины чашелистиков/лепестков.

Спецификация анализа.

Файл данных - irisdat.sta открывается с помощью меню FileOpen из директории Examples/Datasets.

В первых двух переменных (SEPALLEN, SEPALWID) представлены длина и ширина чашелистиков, следующие две переменные (PETALLEN, PETALWID) – длина и ширина лепестков. Последняя переменная IRISTYPE – группирующая (кодирующая) – определяет принадлежность сорту ириса (Setosa, Versicol, Virginic) для каждого цветка. Всего представлено 150 цветков, по 50 каждого сорта.

Стартовая панель (Startup Panel). Выберите Discriminant Analysis из меню Statistics - Multivariate Exploratory Techniques для отображения стартовой панели Discriminant Function Analysis. На закладке Quick выберите опцию Advanced options (stepwise analysis). Нажмите кнопку Variables для отображения диалога выбора переменных, Variable selection. Здесь выберите Iristype как группирующую переменную – Grouping variable, а остальные переменные – как независимые в список Independent variable list; они будут использоваться для определения сорта; затем нажмите кнопку OK.

Далее задайте коды группирующей переменной. Нажмите кнопку Codes for grouping variables и введите 1-3, нажав кнопку All.

Нажмите кнопку OK и вернитесь в Стартовую панель. Иначе – можно нажать OK на Стартовой панели и система STATISTICA автоматически изучит группирующие переменные и выберет их коды.

Удаление пропущенных данных. Данный файл не содержит пропущенных данных. Однако если они есть, можно сделать выбор, игнорировать ли строки с пропущенными данными (выбрать опцию Casewise в MD deletion) или заменить пропуски усредненными значениями (выбрать опцию Mean substitution в MD deletion).

Описательная статистика. Для начала анализа нажмите кнопку OK на стартовой панели. Будет отображен диалог Model Definition, предназначенный для детализации дискриминантного анализа и просмотра описательной статистики. Откройте закладку Descriptives.

Прежде, чем специфицировать анализ, нажмите кнопку Review descriptive stats для обзора распределений переменных и их корреляций. Отображается диалог Review Descriptive Statistics.

Сначала взгляните на средние. На закладке Quick нажмите кнопку Means & numbers of cases, чтобы увидеть таблицы средних и количество экземпляров для каждой группы.

Создание гистограмм из таблиц. Для создания гистограммы распределения частот переменной сначала кликните на заголовке нужного столбца. Затем правой кнопкой мыши вызовите меню графиков и выберите Graphs of Input DataHistogram SEPALWIDNormal Fit.

В диалоге Review Descriptive Statistics доступны разнообразные опции графического отображения. Приведем их ниже.

Диаграмма Box& whisker. На закладке All cases нажмите кнопку Box plot of means для создания диаграммы по независимым переменным. Сначала отобразится стандартный диалог выбора переменных Variable selection; выберите все переменные и нажмите OK. В открывшемся диалоге Box-Whisker Type задайте опцию Mean/SD/1.96*SD и нажмите OK .

Можно также увидеть распределение переменных по уровням группирующей переменной, нажав кнопку Box plot of means by group на закладке Within. Выберите переменную PETALLEN в диалоге Variable selection и нажмите OK. В диалоге Box-Whisker Type задайте опцию Mean/SD/1.96*SD и нажмите OK.

Категорированные гистограммы. Путем нажатия кнопки Categorized histogram by group на закладке Within можно получить гистограммы переменных по категориям (кодам) группирующей переменной. В стандартном диалоге Variable selection можно выбрать переменную из списка предварительно заданных независимых переменных. Например, выберите SEPALWID, и после нажатия OK будет показана ее категорированная гистограмма. Как можно видеть, эта переменная нормально распределена внутри каждой группы (т.е. по сортам цветка).

Диаграммы рассеяния. Другой тип представляющих интерес графиков – диаграммы рассеяния корреляций между включенными в анализ переменными. Для графического отображения корреляций для всех переменных в матричной диаграмме нажмите кнопку Plot of total correlations на закладке All cases. Выберите все переменные в диалоге Variable selection и нажмите OK.

Рассмотрим диаграммы для переменных SEPALLEN и PETALLEN. Выберите Scatterplots из меню Graphs для отображения диалога 2D Scatterplots. На закладке Quick нажмите кнопку Variables и в диалоге Variable selection выберите PETALLEN как переменную X, SEPALLEN как переменную Y и нажмите OK. Далее выберите опцию Confidence в Regression bands. Нажмите OK.

На графике видны два «скопления» точек. Возможно, точки в левом нижнем углу принадлежат одному сорту ириса. Если это так, то это очень хорошо для проводимого анализа, а если нет – то можно ожидать, что распределение для этих двух переменных не является двумерно нормальным, а скорее мультимодальным с более чем двумя «пиками». Чтобы исследовать этот вопрос, создайте категорированные диаграммы рассеяния для переменных PETALLEN и SEPALLEN, группируя по IRISTYPE (по сорту). Выберите Scatterplots из меню Graphs - Categorized Graphs для вывода диалога 2D Categorized Scatterplots. На закладке Quick кликните Variables для открытия стандартного диалога Variable selection. Далее укажите PETALLEN как Scatterplot X, SEPALLEN как Scatterplot Y, а переменную IRISTYPE как X-Category и нажмите OK. Кроме того, нажмите кнопку опций Overlaid под Layout и затем OK.

Эта диаграмма рассеяния показывает корреляцию между переменными SEPALLEN и PETALLEN внутри групп. Можно заключить, что предположение о двумерном нормальном распределении внутри каждой группы, вероятно, не выполняется для именно этой пары переменных.

Спецификация Дискриминантного анализа. Нажмите кнопку Cancel в диалоге Review Descriptive Statistics, чтобы вернуться в диалог Model Definition. Будем выполнять пошаговый анализ и следить, что происходит на каждом шаге. На закладке Advanced задайте Forward stepwise в окошке Method. В такой установке STATISTICA будет вводить переменные в модель дискриминантной функции одну за другой, всякий раз выбирая переменную, вносящую наибольший вклад в дискриминацию.

Правила остановки. STATISTICA прекратит шаги, когда произойдет одно из четырех событий:

  1. Все переменные введены или исключены, либо

  2. Превышено максимальное число, заданное в окошке Number of steps box, либо

  3. Ни одна из переменных, еще не включенных в модель, не имеет F-значение большее, чем F-для включения, заданное в диалоге условий и ни одна переменная в модели не имеет F-значение меньшее, чем F-для исключения, заданное в диалоге, либо

  4. Какая-либо переменная имеет значение толерантности меньшее, чем задано в окошке спецификации Tolerance.

F-для включения/исключения. При выполнении шагов в прямом направлении STATISTICA будет выбирать те переменные для включения, которые дают наибольший собственный вклад в различие между группами; т.е. STATISTICA будет отыскивать переменные с наибольшим F-значением (большим, чем предусмотренное F-для включения). При выполнении шагов в обратном направлении STATISTICA будет выбирать переменные для исключения наименее значимые, т.е. с наименьшим F-отношением (меньшим, чем F-для исключения). Следовательно, если вы хотите включить все переменные в прямой пошаговый анализ, установите F-для включения как можно меньшим, а F-для исключения равным 0.

Если вы хотите исключить все переменные из модели поочередно, установите F-для включения очень большим (порядка 9999), а также F-для исключения очень большим, но в пределе меньшим, чем F-для включения (например, 9998), т.к. F-для включения должно быть всегда больше, чем F-для исключения.

Толерантность. На каждом шаге STATISTICA вычисляет значение коэффициента множественной корреляции (R-квадрат) для каждой переменной, включаемой в модель. Значение толерантности равно 1–R-квадрат, т.е. значение толерантности есть мера избыточности переменной.

Например, если переменная, вводимая в модель, имеет толерантность 0,01, то эта переменная считается на 99% избыточной в совокупности с другими переменными, уже включенными в модель. Отметим, что когда одна и более переменных становятся избыточными, матрицы ковариаций становятся необратимыми, и дискриминантный анализ не выполняется.

По умолчанию устанавливается значение толерантности 0,01. Если включаемая в модель переменная на 99% избыточна в совокупности с другими переменными, то ее практический вклад сомнителен. Более важно, что в случае установки толерантности намного меньше, могут появиться ошибки округления, ведущие к неустойчивым оценкам параметров.

Начало анализа. После обзора многочисленных опций диалога, можно продолжить в обычной манере, т.е. не менять никаких установок по умолчанию. И все-таки, чтобы увидеть результаты анализа на каждом шаге, измените Display results на At each step. Затем нажмите OK.

Просмотр результатов дискриминантного анализа.

Результаты на Шаге 0. Первым появляется диалог Discriminant Function Analysis Results для Шага 0. Этот шаг означает, что ни одна переменная не включена в модель.

Поскольку еще нет включенных переменных, большинство опций диалога недоступно. Но можно увидеть переменные вне уравнения с помощью кнопки Variables not in the model.

Лямбда Уилкса (Wilks' lambda). Это стандартная статистика для определения статистической значимости разделяющей способности (дискриминирующей мощности) модели. Она принимает значение от 1 (нет разделяющей способности) до 0 (полная разделяющая способность). Каждое значение в первом столбце таблицы – это лямбда Уилкса после включения соответствующей переменной в модель.

Частная лямбда Уилкса (Partial Wilks' lambda). Это лямбда Уилкса для уникального вклада соответствующей переменной в дискриминацию групп. Эти значения можно рассматривать как коэффициенты частной корреляции. Поскольку значение лямбда, равное 0,0 определяет полную дискриминирующую способность, то чем меньше значение в этом столбце, тем больше уникальная дискриминирующая способность переменной. Поскольку еще ни одна переменная не включена в модель, частная лямбда Уилкса на Шаге 0 равна лямбда Уилкса после включения первой переменной, т.е. значению в первом столбце таблицы.

F-для включения и p-значение. Лямбда Уилкса можно преобразовать в стандартное F-отношение с соответствующим p-значением вероятности для каждого F. Однако не стоит делать на него ставку. Может оказаться, что включение в анализ некоторых переменных без всякой опытной гипотезы и выбор интерпретации только тех, что «значимы», не проходит.

Коротко говоря, существует большое различие между предсказанием a priori значимого эффекта для отдельной переменной и затем установлением, что эта переменная значима, и выбором среди 100 переменных одной значимой. Не вдаваясь в детали, в чисто практических терминах, во втором случае не очень вероятно, что если повторять изучение, можно найти переменную, которая будет значимой. При обсуждении результатов дискриминантного анализа следует быть осторожными, чтобы не сложилось впечатление, что только значимые переменные выбраны в первую очередь (по некоторым теоретическим соображениям), когда фактически они выбраны потому, что случайно оказались «в работе».

На предыдущем графике видно, что большее F-для включения оказалось у переменной PETALLEN. Таким образом, эта переменная должна быть включена в модель на следующем (первом) шаге.

Толерантность и R-квадрат. Значение толерантности обсуждалось ранее в этом разделе. Оно определяется как 1–R-квадрат переменной со всеми другими переменными в модели, и это значение является показателем избыточности соответствующей переменной. Пока не включены другие переменные, все R-квадрат равны 1.

Результаты Шага 2. Теперь нажмите кнопку Next для перехода к следующему шагу. Шаг 1 здесь обсуждаться не будет, поэтому нажмите кнопку Next еще раз. Рассмотрим диалог результатов анализа дискриминантной функции – Discriminant Function Analysis Results.

Прежде всего, отметим, что дискриминация сортов ириса высоко значима (Wilks'Lambda=.037; F=307.1, p<0.0001). Далее рассмотрим независимый вклад в предсказание каждой переменной в модели.

Переменные в модели. Нажмите кнопку Summary: Variables in the model для вывода таблицы результатов. Как видно, обе переменные имеют высокую значимость.

Переменные вне модели. Далее нажмите кнопку Variables not in the model для вывода таблицы с аналогичными статистиками.

Видно, что обе переменные, еще не включенные в модель, имеют значения F-для включения, превосходящие 1. Таким образом, необходимо продолжить, и следующей переменной, включаемой в модель будет PETALWID.

Результаты Шага 4 (финальный шаг). Снова нажмите кнопку Next в диалоге Discriminant Function Analysis Results для выполнения дальнейшего анализа. Шаг 3 здесь не будет рассматриваться, поэтому нажатием Next перейдите к Шагу 4. Затем нажмите кнопку Summary: Variables in the model для просмотра независимого вклада каждой переменной в определение сорта ириса.

Частный лямбда Уилкса (Partial Wilks' Lambda) показывает, что переменная PETALLEN имеет наибольший вклад, PETALWID на втором месте, переменная SEPALWID на третьем, и переменная SEPALLEN имеет наименьший вклад в определение (чем меньше Wilks' Lambda, тем больше вклад). Можно заключить, что размеры лепестков являются главными переменными, определяющими сорт ириса. Для более глубокого изучения природы дискриминации нужно выполнить канонический анализ. Откройте закладку Advanced.

Канонический анализ. Вычисление значений дискриминантных функций необходимо чтобы увидеть, как четыре переменные разделяют различные группы (по сорту ириса). Нажмите кнопку Perform canonical analysis и откройте диалог Canonical Analysis.

STATISTICA вычисляет различные независимые (ортогональные) дискриминантные функции. Каждая последующая дискриминантная функция имеет меньший вклад в общую дискриминацию. Максимальное число функций равно наименьшему из двух чисел: числа переменных и числа групп минус 1. В нашем случае порождены две дискриминантные функции.

Значимость корней. Необходимо выяснить, обе ли дискриминантные функции являются статистически значимыми. Нажмите кнопку Summary: Chi square test of successive roots (хи-квадрат тест для убывающих корней) и просмотрите следующую таблицу.

В целом эта таблица представляет пошаговый тест для всех канонических корней. Первая строка всегда содержит тест значимости для всех корней; вторая строка – тест значимости после удаления первого корня и т.д. Итак, эта таблица показывает, сколько интерпретируется корней (дискриминантных функций). В этом примере обе дискриминантные (канонические) функции статистически значимы. Таким образом, мы приходим к двум отдельным заключениям (интерпретациям), как размеры чашелистиков и лепестков позволяют разделять цветки ириса по сортам.

Коэффициенты дискриминантных функций. Нажатием кнопки Coefficients for canonical variables создаются две таблицы: Raw Coefficients (Расчетные коэффициенты) и Standardized Coefficients (стандартизованные коэффициенты). Расчетные (Raw) коэффициенты используются в соединении с данными наблюдений для вычисления значений дискриминантных функций. Стандартизованные коэффициенты служат для интерпретации, поскольку они соответствуют стандартизованным переменным в относительных шкалах.

В первой дискриминантной функции наибольший вес имеют длина и ширина лепестков (переменные PETALLEN и PETALWID, соответственно). Две другие переменные также имеют вклад в эту функцию. Вторая функция оказывается определенной за счет, в основном, переменной SEPALWID (ширина чашелистика), и в меньшей степени переменными PETALWID и PETALLEN (ширина и длина лепестков).

Собственные значения. В предыдущей таблице показаны также собственные значения (корни) – Eigenvalues (roots) для каждой дискриминантной функции и накопленные пропорции (Cumulative Proportion) объясненной дисперсии для каждой функции. Как видно, первая функция определяет более 99% объясненной дисперсии, т.е. 99% всей мощности дискриминации объясняется этой функцией. Таким образом, первая функция наиболее важна.

Факторные коэффициенты. Эти коэффициенты (найденные нажатием кнопки Factor structure в каноническом анализе (Canonical Analysis) на закладке Advanced) представляют корреляции между переменными и дискриминантыми функциями и используются для интерпретации «смысла» дискриминантных функций.

Средние значения канонических переменных. Требуется выяснить, как переменные участвуют в дискриминации ириса по сортам, а также выяснить природу дискриминации для каждого канонического корня. Первый шаг на пути к ответу – посмотреть на канонические средние. Нажмите кнопку Means of canonical variables на закладке Advanced.

Очевидно, первая дискриминантная функция отделяет сорт Setosa от других сортов ириса. Каноническое среднее для Setosa очень отличается от средних других групп. Вторая дискриминантная функция отделяет сорт Versicol от остальных; однако если учитывать предыдущее рассмотрение собственных значений, сила дискриминации значительно меньше.

Диаграмма рассеяния канонических значений. Быстрый способ визуализации этих результатов – построение диаграммы рассеяния для дискриминантных функций. На закладке Canonical Analysis - Canonical Scores нажмите кнопку Scatterplot of canonical scores для построения нестандартизованных значений для Root1 против Root2.

Эта диаграмма подтверждает интерпретацию. Ясно, что цветки сорта Setosa расположены более отдаленно справа. Так, первая дискриминантная функция в основном отделяет этот сорт ириса от других. Вторая функция разделяет сорт Versicol (для второй функции преобладают отрицательные значения) и остальные (с положительными значениями). Однако дискриминация не столь отчетлива как для первой функции (корня).

Выводы. Наиболее значимая и ясная дискриминация возможна для цветков сорта Setosa с помощью первой дискриминантной функции. Эта функция отмечена отрицательными коэффициентами для длины и ширины чашелистиков положительными весами для длины и ширины лепестков. Следовательно, более длинные и широкие чашелистики и более короткие и узкие лепестки присущи цветкам ириса сорта Setosa (на диаграмме рассеяния для канонических функций цветы сорта Setosa расположены правее, т.е. им соответствуют более высокие значения функций).

Классификация. Вернитесь в диалог Discriminant Function Analysis Results (нажав кнопку Cancel в диалоге Canonical Analysis) чтобы понять, как полученные дискриминантные функции будут выполнять классификацию.

Классифицирующие функции (Classification functions) вычисляются для каждой группы и используются именно для классификации объектов. Объект будет отнесен к той группе, для которой значение классифицирующей функции наибольшее. На закладке Discriminant Function Analysis Results – Classification нажмите кнопку Classification functions.

Эти функции используются для определения трех новых переменных. Когда в дальнейшем будут вводиться новые объекты, STATISTICA будет автоматически вычислять значение переменной классификации для каждой группы.

Априорные вероятности (A priori Probabilities). Можно определить различные априорные вероятности для каждой группы используя кнопку опций User defined в A priori classification probabilities на закладке Classification). Это вероятности принадлежности объекта соответствующей группе – без использования сведений о значениях переменных в модели. Например, можно знать a priori, что в мире много цветов ириса сорта Versicol, и, значит, вероятность принадлежности цветка к этой группе выше, чем к другим. Можно также просчитать результаты для выделенных объектов (с помощью кнопки Select). На практике полезно согласовать результаты дискриминантного анализа с новыми дополнительными данными. Однако в данном примере просто примите выбор по умолчанию – по кнопке Proportional to group sizes.

Классификационные матрицы (Classification Matrix). Нажмите кнопку Classification matrix. В таблице результатов вторая строка в каждом столбце определяет априорные вероятности классификации.

Поскольку представлено по 50 цветков каждого сорта и предполагается, что вероятности пропорциональны размерам групп, то априорные вероятности равны 1/3 для каждой группы. В первом столбце таблицы вы видите процент наблюдений, которые правильно классифицированы данной функцией. Следующие столбцы показывают число объектов, ошибочно классифицированных по сортам и куда именно.

A priori против post hoc классификации. (A priori versus post hoc classification). Когда классифицируются объекты, по которым построена дискриминантная функция, обычно получают очень хороший результат (хотя не всегда такой, как в данном примере). Однако следует рассматривать эту классификацию как средство диагностики для определения области силы и слабости данной классифицирующей функции, поскольку эта классификация является не a priori предположением, а post hoc классификацией. Только в случае классификации различных новых объектов можно интерпретировать результат в терминах предсказания мощности классификации. Так, было бы необоснованным требовать, что будет успешно предсказан сорт ириса в 98% всех случаев, основываясь на измерениях. Поскольку в основе лежит случай, следует ожидать меньшую точность при классификации новых объектов (цветков).

Классификация объектов.(Classification of Cases).

Расстояния Махаланобиса и постериорные вероятности (Mahalanobis distances and posterior probabilities). Вернитесь снова в диалог Results. Объекты классифицируются в группы, к которым они ближе. Расстояние Махаланобиса является мерой близости в многомерном пространстве. Можно вычислить расстояние между каждым объектом и центром каждой группы (т.е. центроидом, определенным групповыми средними). Чем ближе объект к центроиду, тем больше надежность его отнесения к группе. Расстояния Махаланобиса вычисляются по нажатию кнопки Squared Mahalanobis distances на закладке Classification.

Можно также найти доверительную вероятность того, что объект отнесен к группе. Такие вероятности называют постериорными (posterior probabilities). Запросить эти вероятности можно с помощью кнопки Posterior probabilities.

Актуальная классификация (Actual classifications). Нажатием кнопки Classification of cases) получите частичный листинг классификации.

Классификация упорядочена в первый, второй и третий уровень. Столбец с заголовком 1 содержит первый уровень классификации, а именно, группирует объекты с наибольшей постериорной вероятностью. Строки, помеченные звездочкой (*), ошибочно классифицированы. И снова в нашем примере очень высокая точность классификации, даже с учетом факта, что это post hoc классификация.

Заключение. Этот пример иллюстрирует основные идеи дискриминантного анализа. Вообще, этот метод применяется во многих случаях, где есть естественная группировка. Однако, как уже отмечалось ранее, если целью исследования является корректная классификация, то нужно выполнить два этапа: первый – это построение классифицирующей функции, а второй – проверка ее приспособленности.