Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УМК Б ОГД 1 МатСтат 3 УЧПОС Воронов И.А

.pdf
Скачиваний:
44
Добавлен:
02.04.2015
Размер:
3.01 Mб
Скачать
Рис. 3.4
Рис. 3.3

2.Щелкните сначала на переменной помощь, чтобы выделить се, а затем – на верхней кнопке со стрелкой, чтобы переместить переменную в поле Dependent (зависимая переменная). Выделите переменные симпа-

тия, проблема, эмпатия, польза и аг-

рессия, затем переместите их в список

Independent(s) (неза-

висимые переменные).

3.В раскрывающемся списке Method (метод) выберите пункт Stepwise (по шагам).

4.Щелкните па

кнопке Statistics (ста-

тистики), чтобы от-

крыть диалоговое окно Linear Regression: Statistics (линейная регрессия: статистики), (рис. 3.2). Установите флажок Descriptives (описательные статистики) и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалого-

вое окно Linear Regression (линейная регрессия).

5. Щелкните па кнопке Save (сохранение), чтобы открыть диало-

говое окно Linear Regression: Save

(линейная регрессия: сохранение) (рис. 3.3). Установите флажок Unstandardized (нестандартизированные значения) и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Linear Regression

(линейная регрессия).

6. Щелкните на кнопке Options (параметры), чтобы открыть диалого-

51

вое окно Linear Regression: Options (линейная регрессия: параметры), показанное на рис. 3.4. В поле Entry (включение) введите значение 0,1, в поле Removal (удаление) введите значение 0,2 и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Linear Regression (линейная регрессия).

7. Щелкните на кнопке ОК, чтобы открыть окно вывода.

В результате выполнения приведенных инструкций будут сгенерированы данные, позволяющие судить о том, какая из независимых переменных оказывает наибольшее влияние на критерий.

На основе этих данных можно составить уравнение регрессии:

(помощь) = – 5 ,315 + 1,257 (польза) + 1,168 (агрессия) + 1,033(симпатия).

3.3. Дискриминантный анализ (ДА)

 

ДА позволяет предсказать

 

 

Примеры ситуаций, в которых было бы

принадлежность объектов к двум или

весьма желательно вычислить вероятность

 

более непересекающимся группам.

того или иного исхода в зависимости от

Исходными данными для ДА

совокупности измеряемых

переменных:

является множество объектов, разде-

а) подходит ли соискатель работы на ту

ленных на группы так, что каждый

или иную должность, б) страдает ли пси-

хически больной человек

шизофренией

объект может быть отнесен только к

или психозом, в) вернется ли заключенный

одной группе. Допускается при этом,

в тюрьму или к нормальной жизни после

 

что некоторые объекты не относятся

выхода на свободу, г) какие факторы

ни к какой группе (являются «неиз-

влияют на увеличение риска пациента по-

вестными»). Для каждого из объек-

лучить сердечный приступ и т. п.

тов имеются данные по ряду количе-

 

 

ственных переменных. Такие переменные назы-

 

 

 

ДА представляет собой

аль-

ваются дискриминантными переменными, или

тернативу МР (см. разд.

3.2)

предикторами.

для случая,

когда зависимая

Задачами ДА является определение: 1) ре-

переменная

представляет со-

 

шающих правил, позволяющих по значениям

бой не количественную, а ка-

предикторов отнести каждый объект (в том числе

чественную

(номинативную)

и «неизвестный») к одной из известных групп; 2)

переменную. При этом ДА

«веса» каждого предиктора для разделения объек-

решает, по сути, те же задачи,

что и МР: предсказание зна-

тов на группы.

чений «зависимой» переме-

ДА основан на составлении уравнения рег-

ненной (в данном случае ка-

 

рессии, использующего номинативную зависи-

тегорий номинативного

при-

мую переменную.

знака) и определение того,

Этапы ДА

какие «независимые» пере-

ДА состоит из четырех основных этапов.

менные лучше всего подходят

для такого предсказания.

 

1. Выбор переменных-предикторов. Иссле-

 

 

 

 

 

 

 

дователь использует свои теоретические знания, практический опыт, догадки и

52

т. п. для того, чтобы составить список переменных, которые могут повлиять на результат группировки (переменную-критерий).

2.Обычно на начальном этапе ДА для предикторов формируется корреляционная матрица. В данном контексте она имеет особый смысл, называется общей внутригрупповой корреляционной матрицей и содержит средние коэффициенты корреляции для двух или более корреляционных матриц (каждая для одной группы). Помимо общей внутригрупповой корреляционной матрицы можно также вычислить ковариационные матрицы для отдельных групп, для всей выборки либо общую внутригрупповую ковариационную матрицу. Нередко исследователи применяют серию t-критериев между двумя группами для каждой переменной либо однофакторный дисперсионный анализ, если число групп оказывается больше двух. Поскольку целью дискриминантного анализа является составление наилучшего уравнения регрессии, дополнительный анализ исходных данных никогда не является лишним.

3.Выбор параметров. В этом разделе будет продемонстрирован один из методов ДА. По умолчанию программа реализует метод, который основан на принудительном включении в регрессионное уравнение всех предикторов, указанных исследователем. В нашем случае используется метод Уилкса (Wilks), относящийся к категории пошаговых методов и основанный на минимизации коэффициента Уилкса (λ) после включения в уравнение регрессии каждого но-

вого предиктора.

 

 

 

 

 

Так же как и в случае МР, сущест-

4. Интерпретация

результатов.

Це-

вует критерий для включения пре-

лью ДА является составление уравнения

дикторов в уравнение регрессии

регрессии с использованием выборки, для

(по умолчанию таким критерием

которой известны значения и предикторов,

является F > 3,84) и критерий для

и критерия. Это уравнение позволяет по из-

исключения предикторов из урав-

нения регрессии (по умолчанию F

вестным значениям предикторов опреде-

< 2,71). Коэффициент k представ-

лить неизвестные значения критерия

для

ляет собой отношение внутри-

другой выборки. Разумеется, точность рас-

групповой суммы квадратов к об-

считываемых значений критерия для вто-

щей сумме квадратов и характери-

рой выборки в общем случае не выше, чем

зует долю влияния предиктора на

для исходной. Так, в нашем примере рег-

дисперсию критерия. Со значением

k связаны величины F и р, характе-

рессионное уравнение

обеспечило около

ризующие его значимость

90% корректных результатов для той вы-

 

 

борки, с помощью которой оно было создано. Соответственно, точность предсказания успешности обучения для 10 абитуриентов может достигать 90% лишь в том случае, если выборка претендентов совершенно идентична тем 46 учащимся, данные для которых послужили основой для прогноза.

Задача 3.3 [7]. Для решения требуется программа SPSS и файл данных DA-

FA-KA.sav. Файл DA-FA-KA.sav содержит данные о 46 учащихся (объекты с 1-го по 46-й), закончивших курс обучения, в отношении которых известны оценки успешности обучения: «зачет» – 1, «незачет» – 0. Кроме того, в файл

53

Рис. 3.6

включены данные предварительного тестирования этих учащихся до начала обучения (13 переменных):

и1, и2, ..., и11 – показатели теста интеллекта;

э_и – показатель экстраверсии по тесту Г. Айзенка;

н – показатель нейротизма по тесту Г. Айзенка.

Для 10 абитуриентов (объекты с 47-го по 56-й) известны лишь результаты их предварительного тестирования (13 перечисленных переменных). Значения переменной оценка для них еще неизвестны и в файле данных им соответствуют пустые ячейки. Требуется спрогнозировать успешность обучения 10 абитуриентов на основе предварительного тестирования в предположении, что выборки закончивших обучение и абитуриентов идентичны.

1.Откройте файл данных DA- FA-KA.sav.

2.В меню

Analyze (анализ)

выберите команду

Classify ► Discriminant (клас-

сификация > дискриминантный анализ). На экране появится диалоговое окно Discri-

minant

Analysis

 

(дискриминант-

 

ный

анализ)

Рис. 3.5

(рис. 3.5).

 

 

 

3. Переместите переменную оценка в поле Grouping Variable (группирующая переменная). Щелкните па кнопке Define Range (задать диапазон), чтобы открыть диалоговое окно Discriminant Analysis: Define Range

(дискриминантный анализ: Задание диапазона) (рис. 3.6). В поле Minimum (минимум) введите значение 0, в поле Maximum (макси-

мум), введите значение 1 и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Discriminant Analysis (дискриминантный анализ).

4.Переменные от и1 до н переместите в список Independents (независимые переменные), установите переключатель Use stepwise method (использовать пошаговый метод).

5.Щелкните на кнопке Statistics (статистики), чтобы открыть диалоговое окно Discriminant Analysis: Statistics (дискриминантный анализ: статистики)

54

(рис. 3.7). Установите флажки Means (средние), Box's M (М Бокса), Univariate ANOVAs (однофакторный дисперсионный анализ), Unstardardized (нестандартизированные коэффициенты) и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Discriminant Analysis (дискриминантный анализ).

6. Щелкните па кнопке Method (метод), чтобы открыть диалоговое окно Dis-

criminant Analysis: Stepwise Method (дискриминантный анализ: пошаговый метод) (рис. 3.8). В поле Entry (ввод), введите значение

1,125, в поле Removal (вы-

вод), введите значение 1 и щелкните на кнопке Continue (продолжить), чтобы вернуться в диа-

логовое окно Discriminant Analysis

(дискриминантный анализ).

7. Щелкните на кнопке Classify (классификация), чтобы открыть диалоговое окно Discriminant Analysis: Classification (дис-

криминантный анализ: классификация) (рис. 3.9). Установите флажки Casewise results (резуль-

таты для объектов),

Summary table

(итоговая таблица) и щелкните на кнопке Continue

(продолжить), чтобы вернуться в диалоговое окно Dis-

criminant Analysis (дискриминантный анализ).

Рис. 3.7

Рис. 3.8

Рис. 3.9

55

8. Щелкните на кнопке ОК, чтобы открыть окно вывода.

В результате выполнения приведенных инструкций будут сгенерированы коэффициенты (Canonical Discriminant Function Coefficients) для группировки интересующих нас объектов в целях прогнозирования: На основе этих данных можно составить уравнение регрессии

(0/1) = – 9,865 + 0,382 (счет в уме) – 0,241 (умозаключения) +

+0,214 (понятливость) + 0,185 (аналогии) + 0,162 (скрытые фигуры) +

+0,157 (заучивание слов) + 0,097 (экстраверсия)

или

(0/1) = – 9,865 + 0,382 (и4) – 0,241 (и9) + 0,214 (и5) + 0,185 (и7) + 0,162 (и2) + 0,157 (и11) + 0,097 (э_и).

3.4. Факторный анализ (ФА);

За последние 3040 лет ФА приобрел значительную популярность в психологических и социальных исследованиях. Во многом этому способствовала разработка Раймондом Кеттеллем знаменитого 16-факторного личностного опросника (16PF). Именно при помощи ФА ему удалось свести около 4500 наименований личностных особенностей к 187 вопросам, которые, в свою очередь, позволяют измерить 16 различных свойств личности.

ФА дает возможность количественно определить латентные переменные, которые непосредственно измерить невозможно, исходя из нескольких доступных измерению явных переменных. Например, явные характеристики «посещает развлекательные мероприятия», «много разговаривает», «охотно идет на контакт с любым незнакомым человеком» могут служить оценками латентного качества «общительность», которое непосредственно не поддается количественному измерению. ФА позволяет выделить для большого числа признаков сравнительно узкий набор «свойств», объединяющих более тесно связанные признаки в группы и называемые факторами.

Процедура ФА состоит из четырех основных стадий:

1.Вычисление корреляционной матрицы для всех переменных, участвующих в анализе.

2.Извлечение факторов.

3.Вращение факторов для создания упрощенной структуры.

4.Интерпретация факторов.

Первые три операции кратко рассматриваются в следующих примерах; последняя операция описывается лишь на концептуальном уровне.

Задача 3.4 [7]. Для решения требуется программа SPSS и файл данных DA-

FA-KA.sav.

1. Откройте файл данных DA-FA-KA.sav.

56

2. В

меню

 

Analyze

(анализ)

 

выберите

команду

 

Data Reduction

 

Factor

(сокращение

 

данных

>

фактор-

 

ный анализ). На эк-

 

ране появится диа-

 

логовое окно Factor

 

Analysis

(фактор-

 

ный анализ) (рис.

 

3.10).

Переместите

 

переменные и1

 

и11 в

список Va-

Рис. 3.10

riables

 

(перемен-

 

 

ные).

3.Щелкните на кнопке Rotation (вращение), чтобы открыть диалоговое окно Factor Analysis: Rotation (факторный анализ: вращение) (рис. 3.11). В группе Method (метод) установите переключатель Varimax и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Factor Analysis (факторный анализ).

4.Щелкните на кнопке ОК,

чтобы открыть окно вывода.

 

 

При выполнении этого шага

 

проводится

факторный

анализ,

 

включающий

следующие опера-

 

ции:

1) вычисление корреляцион-

 

ной матрицы для 11 переменных,

 

задействованных

в

анализе;

 

2) извлечение

11

факторов мето-

 

дом

главных

компонентов;

 

3) выбор для вращения всех фак-

Рис. 3.11

торов, чьи собственные значения

 

не меньше 1; 4) вращение факторов по методу Varimax; 5) вывод матрицы преобразования факторов.

Задача 3.5 [7]. Для решения требуется программа SPSS и файл данных DA-

FA-KA.sav. В этом примере проводится факторный анализ с участием тех же 11 переменных, что и в предыдущем случае, но задаются дополнительные параметры. Включены в вывод одномерные описательные статистики всех переменных, коэффициенты корреляции, а также критерий многомерной нормальности и адекватности выборки. Для извлечения факторов используется метод главных компонентов, а для отображения – график собственных значений.

57

Рис. 3.13
Рис. 3.12

Вращение факторов производиться методом Varimax, а благодаря установке флажка Loading plot(s) (диаграммы нагрузок), отображена факторная структура после вращения. Переменные сортируются по величине их нагрузок по факторам.

1.Откройте файл данных DA-FA-KA.sav.

2.В меню Analyze (анализ) выбе-

рите команду Data Reduction ► Factor

(сокращение данных > факторный анализ). На экране появится диалоговое окно Factor Analysis (факторный анализ) (см. рис. 3.10). Переместите переменные и1 – и11 в список Variables (переменные).

3. Щелкните на кнопке Descriptives (описательные статистики), чтобы открыть диалоговое окно Factor Analysis: Descriptives (факторный анализ:

описательные статистики) (рис. 3.12). В группе Statistics (статистики) установи-

те флажок Univariate Descriptives (одномерные описательные статистики), в группе Correlation matrix (корреляционная матрица) – флажки Coefficients

(коэффициенты) и КMО and Barlett's Test of sphericity (критерии КМО и сфе-

ричности Барлетта) и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Factor Analysis (факторный анализ).

4. Щелкните на кнопке Extraction (из-

влечение), чтобы открыть диалоговое окно

Factor Analysis: Extraction (факторный анализ: извлечение) (рис.3.13). Установите флажок Scree Plot

(график собственных значений) и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое

окно Factor Analysis (факторный анализ).

5. Щелкните на кнопке Rotation (вращение), чтобы открыть диалоговое окно Factor Analysis: Rotation (факторный анализ: вращение) (рис. 3.11). В группе Method (метод) установите переключатель Varimax, в группе Display (отображать) – флажок Loading plot(s) (диаграммы нагрузок) и щелкните на

58

кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Factor

Analysis (факторный анализ).

 

6. Щелкните па кнопке Options

 

(параметры), чтобы открыть диалого-

 

вое окно Factor Analysis: Options

 

(факторный анализ: параметры), пока-

 

занное на рис. 3.14. Установите фла-

 

жок Sorted by size (сортировать по ве-

 

личине) и щелкните на кнопке Contin-

 

ue (продолжить), чтобы вернуться в

 

диалоговое окно Factor Analysis (фак-

 

торный анализ).

Рис. 3.14

7. Щелкните на кнопке ОК, что-

 

бы открыть окно вывода.

 

3.5. Кластерный анализ (КА)

КА имеет определенное сходство с ДА; сходство заключается в том, что исследователь в обоих случаях ставит перед собой цель разделить совокупность объектов (а не переменных) на несколько более мелких групп. Тем не менее, процесс классификации в двух видах анализа принципиально различен. В КА объекты классифицируются на основе их различия без какой-либо предварительной информации о количестве и составе классов. В ДА количество и состав классов изначально задан, и основная задача заключается в определении того, насколько точно можно предсказать принадлежность объектов к классам при помощи данного набора дискриминантных переменных (предикторов).

Выделяют несколько этапов КА: 1) выбор переменных-критериев для кластеризации; 2) выбор способа измерения расстояния между объектами, или кластерами (изначально считается, что каждый объект соответствует одному кластеру); 3)

формирование кластеров; 4) интерпретация результатов.

Задача 3.6. Для ре-

шения

требуется

про-

 

грамма

SPSS

и

файл

 

данных KA.sav,

который

 

содержит данные о 16

 

подержанных

кардиот-

 

ренажерах «беговая до-

 

рожка»

разных

марок,

Рис. 3.15

 

 

 

 

59

Рис. 3.16

выставленных на продажу. Провести КА объектов.

1.Откройте файл данных KA.sav.

2.В меню Analyze (анализ) выбе-

рите команду Classify ► Hierarchical Cluster (Классификация ► иерархическая кластеризация). Откроется диало-

говое окно Hierarchical Cluster Analysis (иерархический кластерный анализ) (рис. 3.15). Переменную фирма переместите в поле Label Cases by (Различать объекты по), а переменные цена – усл_км переместите в список

Variable(s) (переменные).

3.Щелкните на кнопке Plots (диаграммы), чтобы открыть диалоговое

окно Hierarchical Cluster Analysis: Plots (иерархический кластерный ана-

лиз: диаграммы) (рис. 3.16). Установите флажок Dendrogram (дендрограмма) и переключатель None (нет) в группе Icicle (диаграмма накопления). Щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ).

4.Щелкните на кнопке Method (метод), чтобы открыть диалоговое окно

Hierarchical Cluster Analysis: Method (иерархический кластерный анализ: ме-

тод) (рис. 3.17). В списке Cluster Method (метод кластеризации) оставьте выбранным пункт Between–groups linkage (межгрупповое связывание), в списке Standardize (стандартизация) выберите пункт Z score (z-шкала) и щелкните па кнопке Continue (продол-

жить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (ие-

рархический кластерный анализ).

5.Щелкните па кноп-

ке Save (сохранить), чтобы

 

открыть

 

диалоговое

окно

 

Hierarchical Cluster Analy-

 

sis: Save

New

Variables

 

(иерархический кластерный

 

анализ:

сохранение

новых

 

переменных) (рис.3.18). Ус-

 

тановите

переключатель

 

Single

Solution

(заданное

 

число кластеров), введите в

Рис. 3.17

 

 

 

 

 

60

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]