Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания и задания МАД.doc
Скачиваний:
40
Добавлен:
05.05.2019
Размер:
752.64 Кб
Скачать

5. Канонический анализ

Главные понятия

Основная цель канонического анализа – поиск максимальных корреляционных связей между двумя группами исходных переменных.

Канонические переменные формируются как взвешенные суммы исходных переменных по двум группам.

Собственные значения – это собственные значения корреляционной матрицы. Эти значения равны доле дисперсии, объясняемой корреляцией между соответствующими каноническими переменными. Вычисляются в порядке убывания значений.

Канонические корреляции (канонические корни) – коэффициенты корреляции между каноническими переменными. Вычисляются как квадратные корни из собственных значений. Число канонических корней равно числу переменных в наименьшем множестве.

Канонические веса – коэффициенты во взвешенной сумме, соответствующей каноническому корню (каждый корень в действительности представляет две взвешенные суммы, по одной на каждое множество переменных). Канонические веса аналогичны частным корреляциям переменных, соответствующих каноническому корню, а также коэффициентам факторных нагрузок.

Канонические значения – значения канонических переменных (взвешенные суммы значений исходных переменных). Канонические веса определяются для стандартизированных (z-преобразованных) переменных.

Факторная структура. Еще одним способом интерпретации канонических корней является рассмотрение обычных корреляций между каноническими переменными (факторами) и переменными из каждого множества. Эти корреляции также называются каноническими нагрузками факторов.

Извлеченная дисперсия. Коэффициенты канонической корреляции соответствуют корреляции между взвешенными суммами по двум множествам переменных. Квадраты этих корреляций будут отражать долю дисперсии, объясняемую каждой переменной. Для каждого корня можно вычислить среднее значение этих долей. При этом получится средняя доля изменчивости, объясненной в этом множестве на основании соответствующей канонической переменной. Другими словами, это средняя доля дисперсии, извлеченной каждым корнем.

Избыточность. Каноническая корреляция при возведении в квадрат дает долю дисперсии, общей для сумм по каждому множеству (канонической переменной). Если умножить эту долю на долю извлеченной дисперсии, получится мера избыточности множества переменных, т.е. величина, показывающая, насколько избыточно одно множество  переменных, если задано другое множество.

Пример 5.1. Канонический анализ.

Данные. Этот пример основан на вымышленных данных файла factor.sta, отражающих изучение удовлетворенности жизнью. Этот файл анализируется также в качестве примера в разделе Факторный анализ (Factor Analysis).

Опрос проведен среди 100 случайно выбранных взрослых людей. Опрос включает 10 пунктов, отражающих меру удовлетворенности от работы (Work_1, Work_2, Work_3), досуга (Hobby_1, Hobby_2), дома (Home_1 – Home_3) и общей удовлетворенности другими сферами жизни (Miscel_1, Miscel_2). Ответы на вопросы внесены в компьютер и промасштабированы так, чтобы среднее по каждому пункту было равно примерно 100.

Результаты опроса внесены в файл данных  factor.sta, который можно открыть с помощью меню File/Open Examples из директории Examples/Datasets.

Цель анализа. Предполагается изучение связи удовлетворенности работой с удовлетворенностью другими сторонами жизни. Показатели удовлетворенности работой считаются независимыми переменными, а другие пункты удовлетворенности – зависимыми переменными.

Предварительный анализ. Из меню StatisticsMultivariate Exploratory Techniques выберите Canonical Analysis для отображения стартовой панели Canonical Analysis. По кнопке Variables вызовите диалог выбора Select variables for canonical analysis, отметьте все переменные (Select All).

Пометьте маркером Review descriptive statistics and correlation matrix для вычисления описательных статистик и, нажав OK, выйдите в диалог Review Descriptive Statistics. Просмотреть распределение переменных можно с помощью диаграмм двух типов: диаграмм Box&whisker или матричных диаграмм. На закладке Advanced выберите Box&whisker plot of vars, укажите все переменные и нажмите OK. В следующем диалоге выбора типа диаграммы Box-whisker Type выделите опцию Median/Quart./Range и нажмите OK. Вы увидите расположение центров распределения и разброс выбранных переменных. Диаграммы Box&whisker полезны в случае симметричного распределения переменных. Если же распределение несимметрично, следует просмотреть гистограммы.

Далее в окне Review descriptive statistics вызовите Matrix plot of correlations для просмотра матричных диаграмм рассеяния. Эти диаграммы позволят выявить выбросы, которые могут повлиять на вычисление коэффициентов корреляции и в дальнейшем на весь канонический анализ.

Далее выберите кнопку Means&standard deviations в окне Review Descriptive Statistics/Advanced и получите таблицы средних значений и стандартных отклонений переменных. Эти данные можно сопроводить гистограммами, если щелкнуть правой кнопкой мыши на значении среднего, например, для переменной Work_1, и затем выбрать последовательно Graphs of Input DataHistogram Work_1 – Normal Fit. Вы получите гистограмму и нормальную кривую.

Для этой переменной распределение соответствует нормальному закону. Повторите эти действия для других переменных.

Спецификация канонического анализа. По окончании предварительного анализа нажмите OK и выйдите в диалог Model Definition, в котором нужно указать два списка переменных с помощью кнопки Variables for canonical analysis: в левом списке укажите переменные Work_1, Work_2, Work_3, а в правом – остальные. Выбор может быть и противоположным (симметрично). После выбора переменных отмените пометку маркером Batch processing/reporting и нажмите OK. На экране появится окно Canonical Analysis Results.

Результаты анализа. На закладке Quick есть только одна кнопка Summary: Canonical results, по нажатию которой выводится таблица Canonical Analysis Summary.

Канонический коэффициент корреляции – Canonical R имеет большое значение (0,88) и высокую значимость (p<0,001). Напомним, что канонический коэффициент корреляции соответствует первому (и наиболее значимому) каноническому корню. Его значение интерпретируется как корреляция между взвешенными суммами переменных двух множеств.

Извлеченная дисперсия. (Variance extracted). Значения в строке Variance extracted указывают среднюю величину дисперсии, извлеченной из переменных соответствующего множества всеми каноническими корнями. Так, все три корня объясняют 100% дисперсии переменных левого множества и 54% дисперсии переменных правого множества. Отметим, что одно из этих значений всегда равно 100%, поскольку число корней определяется минимальным числом переменных в одном из множеств.

Избыточность (Redundancy). Эти значения интерпретируются так, что данное левое множество переменных объясняет в среднем 61,6% дисперсии переменных правого множества на основании соответствующего канонического корня. Так же можно объяснить 33,3% вариации переменных правого множества (не связанные с работой показатели удовлетворенности) за счет переменных левого множества (показатели удовлетворенности работой). Эти результаты подтверждают сильное взаимодействие между переменными двух множеств.

Проверка значимости канонических корней (Canonical Roots). Напомним, что канонический коэффициент корреляции Canonical R, приведенный в таблице, представляет только первый корень, т.е. наиболее значимую каноническую корреляцию. Для проверки значимости всех канонических корней нажмите кнопку Chi square tests на закладке Canonical factors таблицы результатов. Значения канонических коэффициентов и их квадраты, а также соответствующие им значения теста хи-квадрат и их вероятности будут представлены в таблице Chi-Square with Successive Roots Removed.

Максимально возможное число корней определяется числом переменных в наименьшем из множеств. Так, число показателей удовлетворения работой определяет извлечение трех канонических корней. Первая строчка таблицы соответствует всем трем каноническим переменным, т.е. ни один корень не удален (0 Remuved). Тест статистически значим. Далее первый и наиболее значимый корень удаляется и определяется статистическая значимость двух оставшихся. Тест (во второй строке таблицы) не значим. Нужно остановиться и сделать заключение о том, что только первый канонический корень статистически значим и будет использоваться далее.

Факторная структура. Теперь известно, что следует учитывать только первый канонический корень. Как интерпретировать его, т.е. как этот корень связан с переменными двух множеств? Интерпретация канонических «факторов» следует логике факторного анализа. Так, можно вычислить корреляции между переменными в каждом множестве на основании соответствующего канонического корня или переменной. Эту корреляцию называют также канонической факторной нагрузкой или структурным коэффициентом.

Эти значения вычисляются после нажатия кнопки Factor structures & redundancies на закладке Factor structures. В результате будут созданы 4 таблицы: (1) Factor Structure, left set, (2) Variance Extracted (Proportions), left set, (3) Factor Structure, right set, and (4) Variance Extracted (Proportions), right set. Рассмотрим их поочередно.

Факторная структура левого множества (Factor structure in the left set). Как видно, три показателя удовлетворенности работой показывают существенные нагрузки на первый канонический фактор, т.е. тесно коррелируют с ним. Для оценки избыточности нужно вычислить среднее значение дисперсии, объясненное этим показателем – сложить квадраты канонических корней и поделить на три. Результаты предъявляются в таблице Variance Extracted (Proportions), left set.

Как видно, первый канонический корень извлекает в среднем около 77% дисперсии показателей удовлетворенности работой, а значение избыточности (полученное умножением на R-квадрат) составляет около 60%, т.е. за счет переменных правого множества можно объяснить до 60% вариации показателей удовлетворенности работой, основываясь на первом каноническом корне.

Факторная структура правого множества (Factor structure in right set). В таблице Factor Structure, right set первый канонический корень отмечен высокими нагрузками показателей досуга (Hobby_1 и Hobby_2). Для показателей удовлетворенности домом значения нагрузок ниже. Высокими являются и нагрузки для показателей общей удовлетворенности. Отсюда следует, что значимые канонические корреляции между переменными двух множеств (основанные на первом корне) являются вероятным результатом связи между удовлетворенностью работой и досугом и общей удовлетворенностью. Если удовлетворенность работой является определяющей переменной, то можно сказать, что она воздействует на удовлетворенность досугом и другими сторонами жизни, но не влияет на удовлетворенность домом.

Таблица Variance Extracted (Proportions), right set показывает процент дисперсии и избыточность для переменных правого множества. Первый канонический корень объясняет в среднем около 42% дисперсии переменных правого множества; за счет показателей удовлетворенности работой объясняется около 33% дисперсии других показателей на основании первого канонического корня. Отметим, что эти значения «занижены» за счет относительно слабой корреляции между этой канонической переменной (varieties) и показателями удовлетворенности домом.

Канонические значения (Canonical Scores). Канонические переменные (varieties) представляют взвешенные суммы переменных двух множеств. Их веса можно просмотреть в закладке Canonical Scores окна Canonical Analysis Results.

Нажав кнопку Left & right set canonical weights, получим таблицу весовых коэффициентов. Эти веса относятся к стандартизованным переменным двух множеств. Их можно использовать для вычисления коэффициентов канонических переменных, которые можно сохранить с помощью кнопки Save canonical scores.

Графики канонических значений (Plotting canonical scores). График канонических значений для переменных левого множества в сопоставлении с каноническими значениями для переменных правого множества можно построить с помощью кнопки Scatterplot of canonical correlations на закладке Factor structures. В окне спецификаций нужно указать первый корень Root 1 как в левом, так и в правом окне, поскольку только он статистически значим. Можно также добавить линию регрессии с помощью Plot: Fitting в диалоге All Options меню Format.

На диаграмме нет ни выбросов, ни остатков вокруг линии регрессии, определяющих нелинейную тенденцию. Значит, нет нарушения основного предположения о канонической корреляции.

Кластеры объектов (Clusters of cases). Другой интересный аспект этой диаграммы – это проверка отсутствия или наличия кластеров объектов. Такие кластеры могли бы образоваться, если бы, например, респонденты принадлежали к двум группам с сильно отличающимися условиями труда, и в одной из групп респонденты имели бы более высокую удовлетворенность трудом, досугом (и жизнью вообще). На диаграмме это было бы представлено двумя группами точек. Однако в данном примере нет свидетельств существования естественных кластеров.

Заключение. Можно заключить, что на заданном множестве данных удовлетворенность работой воздействует на удовлетворенность досугом и общую удовлетворенность, а удовлетворенность домом от этого не зависит.