Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания и задания МАД.doc
Скачиваний:
40
Добавлен:
05.05.2019
Размер:
752.64 Кб
Скачать

6. Факторный анализ

Главные понятия

Цель факторного анализа: (1) сокращение числа переменных (редукция данных) и (2) определение структуры взаимосвязей между переменными (классификация переменных).

На основе вычислительных процедур производится формирование латентных факторов, обобщающих исходные переменные.

Дисперсии, выделяемые факторами, называются собственными значениями. Количество факторов определяется произвольно, но при этом учитывается величина выделяемой им дисперсии. Факторы выделяются последовательно и содержат все меньше и меньше общей вариации.

Корреляции между переменными и факторами называются факторными нагрузками.

Доля дисперсии отдельной переменной, принадлежащая общим факторам (и разделяемая с другими переменными) называется общностью.

Основное различие двух моделей факторного анализа состоит в следующем: в анализе главных компонент предполагается, что должна быть использована вся вариация переменных, тогда как в анализе главных факторов используется только вариация переменной, общая и для других переменных. Анализ главных компонент часто более предпочтителен как метод сокращения данных, в то время как анализ главных факторов лучше применять с целью определения структуры данных.

Вращение факторов выполняется для получения понятной (интерпретируемой) матрицы нагрузок. Вращение мо методу максимизации дисперсии (varimax) имеет целью максимизацию изменчивости фактора и минимизацию разброса вокруг него.

Интерпретация факторной структуры основана на величинах факторных нагрузок (корреляциях) выделенных факторов с переменными.

После выделения факторов вычисляется воспроизведенная корреляционная матрица для переменных. Разность исходной и воспроизведенной корреляционных матриц называется матрицей остаточных корреляций. Она указывает степень точности корреляций на основе имеющихся факторов.

Пример 6.1. Факторный анализ.

Данные. Используется файл данных, который обсуждался в разделе Канонический анализ – factor.sta, отражающий изучение удовлетворенности жизнью.

Опрос проведен среди 100 случайно выбранных взрослых людей. Опрос включает 10 пунктов, отражающих меру удовлетворенности от работы (Work_1, Work_2, Work_3), досуга (Hobby_1, Hobby_2), дома (Home_1 – Home_3) и общей удовлетворенности другими сферами жизни (Miscel_1, Miscel_2). Ответы на вопросы промасштабированы так, чтобы среднее по каждому пункту было равно примерно 100.

Цель анализа – установление связи между различными областями удовлетворенности жизнью. В частности, желательно установить факторы, определяющие различные области удовлетворенности и их смысл.

Спецификация анализа. Выберите пункт Factor Analysis из меню Statistics - Multivariate Exploratory Analysis. На стартовой панели нажмите кнопку Variables, выберите все 10 переменных (Select All).

В группе MD deletion (удаление пропущенных данных) можно задать дополнительные опции: Casewise (удаление строк) или Pairwise deletion (парами), или Mean substitution (усреднение). В данном примере оставим Casewise.

Определение метода выделения факторов. После нажатия OK в диалоговом окне Define Method of Factor Extraction можно просмотреть описательную статистику, выполнить регрессионный анализ, выбрать метод выделения факторов, задать максимальное число факторов, минимальное собственное значение и другие опции.

Например, откройте закладку Descriptives и, нажав кнопку Review correlations, means, standard deviations, выйдите в окно Review Descriptive Statistics. На закладке Advanced можно в таблицах и графиках ознакомиться с описательной статистикой.

Вычисление корреляционных матриц. Нажав кнопку Correlations, получите таблицу корреляций. Все корреляции положительны, некоторые имеют достаточно большие значения (например, переменные Hobby_1 и Miscel_1 коррелируют на уровне 0,9). Некоторые корреляции (например, между удовлетворенностью работой и домом) относительно малы. Таким образом, в матрице есть определенная структура.

Метод выделения. По кнопке Cancel вернитесь в диалог Define Method of Factor Extraction на закладку Advanced. Для этого примера выберите метод главных компонентPrincipal Components и задайте максимальное число факторов (Max. no. of factors) равным 10, а минимальное собственное значение (Mini. Eigenvalue) равным 0. Нажмите OK для продолжения анализа.

Просмотр результатов. В окне Factor Analysis Results выберите закладку Explained Variance и нажмите кнопку Eigenvalues собственные значения. Эти значения соответствуют доле общей дисперсии. В таблице приведены собственные значения и процент извлеченной дисперсии, а также накопленные собственные значения и процент дисперсии. Сумма всех собственных значений равна 10. Первый выделенный фактор объясняет 61,2% общей дисперсии, а последний всего 0,8%.

Решение о числе факторов. Рекомендуется сохранить собственные значения, превышающие единицу. В данном примере можно оставить 2 фактора.

График собственных значений можно построить на закладке Explained variance по кнопке Scree plot. График показывает, что только 2 или 3 фактора объясняют значимую часть дисперсии. Можно принять решение о 2 или 3 факторах и в дальнейшем определить, какое из них приводит к понятной факторной структуре.

Факторные нагрузки интерпретируются как корреляции между факторами и переменными и содержат самую важную информацию, на которой основывается интерпретация факторов. В диалоге Factor Analysis Results на закладке Loadings выберите опцию Unrotated (без вращения) и нажмите кнопку Summary: Factor Loadings. В полученной таблице Factor Loadings приведены нагрузки всех 10 факторов без вращения.

Факторы формируются по мере убывания объясненной дисперсии. Поэтому первый фактор имеет максимальную нагрузку. Отметим также, что знак факторной нагрузки означает изменение в противоположном направлении.

Вращение факторного пространства. Выбор направления факторов в факторном пространстве произволен, и все вращения воспроизводят корреляции одинаково хорошо. Естественным будет такое вращение, при котором факторная структура интерпретируется наиболее просто. Стандартным методом вращения, обеспечивающим наиболее простую структуру, является метод varimax – максимизации дисперсии. Наряду с ним в пакете реализованы и другие методы.

Спецификация вращения. Можно начать с трехфакторной структуры. Нажмите кнопку Cancel для возврата в окно Define Method of Factor Extraction и на закладке Quick измените максимальное число факторов с 10 на 3. После нажатия OK в окне Factor Analysis Results на закладке Loadings выберите опцию Varimax Raw в окне Factor rotation.

В полученной таблице Factor loadings существенные нагрузки (свыше 0,7) на первый фактор относятся ко всем переменным, кроме связанных с показателями удовлетворенности домом. Второй фактор имеет существенные нагрузки по отношению ко всем переменным, кроме переменных, связанных с работой. Третий фактор имеет только одну существенную нагрузку. Это заставляет задуматься о необходимости включения третьего фактора.

Измените число факторов с 3 на 2 (по кнопке Cancel вернитесь в окно Define Method of Factor Extraction на закладку Quick). Снова задайте метод Varimax raw в окне Factor rotation и по кнопке Summary получите таблицу факторных нагрузок Factor loadings. Первый фактор Factor1 показывает наиболее высокие нагрузки для показателей удовлетворенности работой, а наименьшие нагрузки на этот фактор связаны с показателями удовлетворенности домом. Второй фактор Factor2 показывает наиболее высокие нагрузки для переменных, связанных с домом, а меньшие – для показателей удовлетворенности работой.

Интерпретация двухфакторной структуры с вращением. Первый фактор определяется как фактор удовлетворенности работой, а второй – как фактор удовлетворенности домом. Удовлетворенность хобби и другими сторонами жизни связана с обоими факторами. В соответствии с такой факторной структурой, удовлетворенность работой и домом независимы друг от друга, но оба влияют на удовлетворенность досугом и другими сторонами жизни.

Диаграмма двухфакторного решения с вращением. В диалоговом окне Factor Analysis Results на закладке Loadings нажмите кнопку Plot of loadings, 2D. Полученный график показывает по две факторные нагрузки для каждой переменной. Отчетливо видны два независимых фактора и четыре переменные (HOBBY_1, HOBBY_2, MISCEL_1, MISCEL_2) с перекрестными нагрузками.

Воспроизведенная корреляционная матрица и матрица остаточных корреляций. Нажмите кнопку Reproduced/residual corrs. на закладке Explained Variance и получите две таблицы: воспроизведенная корреляционная матрица (Reproduced correlation matrix) и остаточные корреляции (residual correlations, разность между исходными и воспроизведенными корреляциями). Значения матрицы остаточных корреляций можно интерпретировать как «величину» корреляции, не объясненной за счет двух факторов. Диагональные элементы матрицы содержат необъясненные стандартные отклонения. Ниже диагонали все корреляции не превышают 0,1 (или превышают –0,1).

Общности. Общность переменной – это доля дисперсии, принадлежащая общим факторам (и разделяемая с другими переменными), которая воспроизводится выбранным множеством факторов. Вращение факторного пространства не имеет отношения к общностям. Просмотреть общности для текущего факторного решения можно в окне Factor Analysis Results на закладке Explained Variance с помощью кнопки Communalities.

Очень низкие значения общностей могут означать, что переменные не объяснены данной факторной моделью.

Коэффициенты для значений факторов (Factor score coefficients) – это коэффициенты во взвешенных суммах переменных. Эти коэффициенты используются при вычислении значений факторов. Таблицы коэффициентов и таблицы значений факторов можно просмотреть на закладке Scores.