5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Медицинская_статистика_Жижин_К_С_
.pdfГлава 9. Многомерные статистические методы |
12. |
" Упражнение 32. • • • • • • • • • • • • • • • • • • • • . •
Факторный анализ по корреляционной матрице с по-
МОЩЬЮ метода главных компонент (пакет Statistica).
УслоВие. На основании данных опроса определить глав
ные ведущие факторы профессионального роста врачей со
стажем работы свыше 10 лет и найти между ними возмож
ную связь. Получена" матрица корреляций Пирсона между
следующими показателями: Х1 - удовлетворенность рабо
той в денежном выражении, Х2 - удовлетворенность ра
ботой в профессиональном отношении, ХЗ - удовлетворен ность работой с позиции межличностных отношений, Х4 - возможность реализовать на работе свои конструкторские
возможнос·ги, Х5 - возможнос·гь реализовать свои художе
ственные способности, Хб - удовлетворенность жилищны
ми условиями, Х7 - удовлетворенность межличностыми от ношениями в своей семье, ха - удовлетворенность отноше
ниями с родителями, Х9 - удовлетворенность карьерой в
целом, Х10 - удовлетворенность жизнью в целом.
|
Х1 |
Х2 |
хэ |
Х4 |
Х5 |
Х6 |
Х7 |
ха |
Х9 |
Х10 |
Х1 |
1 |
0,7 |
0,7 |
0,8 |
0,3 |
0.2 |
0,2 |
-0,1 |
-0,2 |
" -0,1 |
Х2 |
0,7 |
1 |
0,6 |
0,8 |
0.4 |
0,3 |
0,4 |
0,1 |
0,1 |
0,1 |
хэ |
0,7 |
0,6 |
1 |
0,6 |
0,3 |
0,2 |
0,3 |
-0,1 |
-0,2" |
-0,2 |
Х4 |
0,8 |
0,8 |
0,6 |
1 |
0,6 |
0,4 |
" 0,4 |
-0,1 |
-0,01 |
-0,001 |
Х5 |
0,3 |
0,4 |
0,3 |
0,6 |
1 |
0,8 |
0,8 |
0,1 |
0,4 |
0,2 |
ха |
0,3 |
0,3 |
0,2 |
0,4 |
0,8 |
1 |
0,8 |
0,3 |
0,5 |
0,3 |
Х7 |
0,2 |
0,4 |
0,3 |
0,4 |
0,8 |
0,8 |
1 |
0,1 |
0,2 |
0,02 |
Х8 |
-0,1 |
0,1 |
-0,2 |
·0,1 |
0,1 |
0,3 |
0,1 |
1 |
0,7 |
0,8 |
Х9 |
-0,2 |
0,1 |
-0,2 |
-0,01 |
0,1 |
0,5 |
0,2 |
0,7 |
1 |
0,9 |
Х10 |
-0,1 |
0,1 - |
-0,2 |
-0,001 |
0,2 |
0,3 |
0,02 |
0,8 |
0,9 |
1 |
Решение:
1. Запустим пакет, найдем модуль (Факторный анализ),
но для его рабо'ГЫ, как и в других модулях пакета, необхо
ДИМО иметь открытый файл с данными для анализа. Такой
файл надо либо ввести «вручную», либо получить из других
модулей пакета. данны e для факторного аНallиза могут быть
представлены либо как первичная матрица - таблица
«объект-признак», либо как заранее рассчитанная матри
ца корреляций между исследуемыми признаками.
5. К. С. Жижин
110 |
Медицинская статистика |
в данном случае мы :собираемся использовать и первич
ную матрицу «объект-признак», и матрицу корреляций:
•ее в принци"е можно предварительно создать в под
модуле (Корреляционные матрицы) модуля (Основ-
ные статистики и таблицы); |
. |
•или ввести готовую корреляционную матрицу «вруч
ную», используя модуль (Управление данными).
В данной задаче необходимо создать для данных спе
циальный файл в модуле (Управление данными).
2. Запустим модуль (Управление данными) и (Создать
новый файл данных). Далее:
•Нажав (Имя нового файла), выберем маршрут раз
мещения файла и присвоим ему имя, чтобы иметь воз
можность неоднократно использовать в процессе
дальнейшей работы.
•в поле (Количество переменных) введем значение
«10».
•В поле (Количество случаев) укажем 14 в последние
две строчки и внесем данные о средних и средних
отклонениях.
•Переименуем первые 10 случаев, задавая для них
имена переменных, т. е. Var 1, ..., Var 10.'1
•Последним четырем случаям присвоим следующие
имена: (Среднее), (Стандартное отклонение), (Номер
наблюдения), (Тип матрицы).
Примечание. Проверьте, в пакете доnжны--ис
пользоваться именно такие названия служебных по лей корреляционной маТРИL,Ы. Иначе матрица не бу
дет восприниматься пакетом как корр~ляционная. ~
•Выполним команды (Файл) - (Сохранить).
з. Запустим (Факторный анализ) - (Открыть файл данных). Стартовое окно (Факторный анализ) содержит следую-
щую информацию:
•(Переменные) - список переменных, подвергаемых
факторизации. (Выбрать все) зададим' переменные
Var 1-10.
Глава 9. |
Миоrомериые статистические методы |
'1' |
|
||
|
|
|
•(Исходный файл) форма представления исходных
данных: (обычная таблица «объект - признаю>), или
(Корреляционная матрица). Выберем значение (Кор
реляционная матрица).
•(Обработка пропущенных значений) - данное поле
нужно, когда мы работаем с данными, сведенными в
матрицу - таблицу «(объект-признак». В этом слу
чае здесь можно задать следующие значения данно
го параметра: (Удаление случаев), (Удаление парами)
и(Замена средними значениями).
4.Нажав ОК, открываем (Диалоговое окно определения метода извлечения факторов).
В блоке (Метод извлечения факторов) можно выбрать
одну из двух основных возможностей: (Метод главных ком
понент) и (Метод главных факторов).
(Метод главных факторов) - общее название целой
группы различных методов: (Максимального правдоподо
бия), (Центроидный), (Метод главных осей) и др.
Мы применим (Метод главных компонент), установив соответствующий флажок.
Обратим внимание на (Максимальное количество фак
торов), (Минимаllьное собственное значение): это поле оп
ределяет предел, начиная с которого собственные значения будут исключаться из дальнейшего анализа. Оставим здесь
заданное.
5. Нажав ОК, перейдем в (Результаты факторного ана
лиза). (Количество извлеченных факторов), равное трем, а
также (Собственные значения). Нажав (Собственные значе
ния), проанализируем таблицу собственных значений и (Про
центы общей дисперсии).
Нажав кнопку (Общности), кнопку (График «каменистая осыпь»), получим наглядную иллюстрацию обоснования ко
личества извлекаемых факторов.
Целесообразно извлекать такое количество факторов,
после которого данный график становится плавным. У нас такая точка - значение З, что подтверждает правильность
извлечения именно трех факторов.
'112 |
Медицинская статистика |
Значение
признака 6
5
4
з
2
1
о |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Факторы
б. Важной и часто используемой возможностью фактор ного анализа является ротация факторов, она приводит к простой и легче интерпретируемой факторной структуре.
Нажмем (Вращение факторов) и перейдем в соответству
ющее диалоговое окно, где задается множество возможных
видов вращения.
Выберем (Нормализованный Варимакс).
Проанализируем новую таблицу (Факторные нагрузки),
видно, что вращение действительно позволило упростить
факторную структуру: нагрузки возросли по величине.
Кроме того, важно обратить внимание на то, что после вращения изменилась доля объясненной дисперсии, прихо
дящаяся на каждый фактор.
• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •
Упражнение N! 33. • • • • • • • • •. • • • • • • • • • • • •
Факторный анализ по исходной матрице.
Теперь выполним факторный анализ данных с помощью
метода глав",ых компонент по первичной таб-лице данных:
1. Запустим пакет, модуль (Факторный анализ). Посколь
ку мЬ. в данном случае собираемся использовать первичную Матрицу «объект - признаю>, то лрименим команды (Но
вый файл данных). Затем введем данные и сохраним файл
данных под осмысленным именем.
2. В стартовом окне (Факторный анализ) аналогично пре жней задаче заполним следующие поля:
Глава |
9. Многомерные crатистические меТОАЫ |
|
|
|
••• |
|||||||
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nt |
|
ХI |
х2 |
ХЗ |
Х4 |
Х5 |
Х6 |
Х7 |
Х8 |
Х9 |
Х10 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
3 |
4 |
3 |
4 |
7 |
8 |
7 |
6 |
8 |
7 |
|
2 |
|
5 |
5 |
5 |
4 |
6 |
5 |
6 |
3 |
4 |
3 |
|
3 |
|
3 |
4 |
3 |
3 |
4 |
5 |
5 |
5 |
4 |
5 |
|
4 |
|
3 |
4 |
3 |
3 |
5 |
5 |
4 |
7 |
6 |
7 |
|
5 |
|
6 |
7 |
6 |
7 |
8 |
7 |
7 |
7 |
8 |
8 |
|
6 |
|
7 |
6 |
5· |
6 |
4 |
5 |
4 |
5 |
4 |
5 |
|
7 |
|
4 |
4 |
4 |
4 |
5 |
6 |
6 |
7 |
6 |
5 |
|
8 |
|
6 |
5 |
5 |
5 |
5 |
4· |
4 |
6 |
5 |
6 |
|
9 |
|
5 |
5 |
5 |
6 |
7 |
6 |
6 |
3 |
4 |
4 |
|
10 |
|
5 |
5 |
4 |
5 |
6 |
5 |
6 |
6 |
5 |
5 |
|
11 |
|
4 |
4 |
5 |
4 |
4 |
3 |
4 |
3 |
4 |
4 |
|
12 |
|
5 |
6 |
5 |
5 |
5 |
4 |
5 |
5 |
5 |
5 |
|
13 |
|
5 |
4 |
5 |
5 |
5 |
6 |
5 - |
5 |
5 |
5 |
|
14 |
|
5 |
5 |
4 |
5 |
4 |
3 |
4 |
5 |
3 |
4 |
|
15 |
|
5 |
6 |
5 |
5 |
6 |
7 |
7 |
6 |
5 |
5 |
|
16 |
|
8 |
7 |
8 |
7 |
8 |
9 |
8 |
5 |
5 |
. 5 |
|
17 |
|
4 |
5 |
3 |
4 |
4 |
4 |
4 |
6 |
7 |
7 |
|
18 |
|
3 |
4 |
5 |
4 |
5 |
4 |
6 |
5 |
5 |
5 |
|
19 |
|
4 |
5 |
4 |
4 |
5 |
6 |
5 |
6 |
7 |
6 |
|
20 |
|
5 |
5 |
6 |
5 |
5 |
4 |
5 |
4 |
3 |
4 |
|
21 |
|
5 |
4 |
5 |
4 |
5 |
6 |
6 |
5 |
4 |
5 |
|
22 |
|
5 |
5 |
6 |
4 |
5 |
5 |
4 |
6 |
5 |
6 |
|
23 |
|
6 |
7 |
9 |
6 |
5 |
5 |
6 |
5 |
5 |
5 |
|
24 |
|
4 |
4 |
4 |
4 |
5 |
5 |
5 |
4 |
5 |
5 |
|
25 |
|
5 |
5 |
6 |
4 |
4 |
5 |
5 |
6 |
5 |
5 |
•(Переменные) - зададим переменные Уаг 1-10.
•(Исходный файл) - выберем (Исходные данные, т. е.
матрица «объект-признаю».
•(Обработка пропущенных знач.ениЙ) - (Удаление
случаев).
З. Нажав ОК, повторив шаги 4-8 решения прежней за
дачи, сравним полученную в ходе анализа корреляционную
матрицу исходных признаков с прежней корреляционной
матрицей и убедимся в их идентичности.
Таким образом, мы проаналиэировали одни и те же ис
ходные данные, представленные в двух различных формах:
'.. |
Медицинская статистика |
|
в первом случае это была корреляционная матрица, а во вто
ром - таблица - матрица «объект-признак)).
Резюме: результаты факторного анализа, выполненно
.го.разными. ... .способами. .. . . .., аналогичны. . . . . ... .... ... .... . . .
>'1JJ)ёt)f("~"If~ ~~. • • • • • • • • • • • • • • • • • • • • • •
Факторный анализ с помощью метода главных факто-
ров (пакет Statistica).
УслоВие. Использовать исходные данные предыдущей
задачи.
Решение:
Запустим пакет, переключимся в модуль (Факторный
анализ). Откроем матрицу «объект - признак», сохранен
ную нами ранее чрез (Файл) - (Открыть файл данных).
2.В стартовом окне (Факторный анализ):
•(Переменные) - зададим Var 1-10.
•(Исходный файл) - выберем (Исходные данные, т. е.
матрица «объект - признак))).
•(Обработка пропущенных значений) - зададим (Уда
ление случаев).
з. Нажав ОК, перейдем к следующему этапу: (Диалого
вое окно определения метода извлечения факторов). В бло
ке (Метод извлечения факторов) активизируем (Метод глав
ных факторов), выберем вариант (Центроидный метод). В
поле (Максимальное количество факторов) установим зна чение 70, а поле (Минимальное собственное значение) не
трогаем.
4.В поле (Центроидный метод):
•В (Минимуме изменений в общностях) оставим значе.,
ние 0,01, доступное ДЛЯ (Метода главных осей) и (Цен
троидного метода) с целью поиска максимально воз
можного количества итераций, определяемого далее.
•(Максимальное количество итераций) - оставим
здесь заданное по умолчанию значение 50.
5.Нажав ОК. перейдем к окну (Результаты факторного
анализа). Вверху находим (Количество извлеченных факто-
Глава 9. MHorouepHble статистические методы |
115 |
ров), равное трем, и (Собственные значения). Нажав на кноп ку (Собственные значения), проанализируем таблицу и (Про центы общей дисперсии), объясняемые за счет данных соб
ственных'значений. При этом определяется общий процент
дисперсии, объясняемой тремя факторами, он несколько
меньше, чем в случае применения метода главных компо
нент. Нажав (Общности), можно активизировать таблицу
общностей сообразно найденным факторам. Нажав на (Фак
торные нагрузки), выходим на подборку факторных нагру
зок, полученных до вращения.
Нажав на (График «каменистая осыпь»), видим, что для
центроидного метода он нецелесообраэен для определения
числа факторов.
5. Нажмем (Вращение факторов) и (Нормализованный
Варимакс). Получим таблицу (Факторные нагрузки) с уче
том вращения факторов. Видим, что вращение действит~ль
но позволило упростить факторную структуру: нагрузки воз
росли по величине.
Факторы
Но это не все - после вращения изменилась доля дис
персии, приходящаяся на каждый фактор. При этом общая
доля объясненной дисперсии по всем трем факторам после
вращения не изменилась. Из всего этого вытекает, что ро
тация повлияла на значимость факторов: теперь наиболее
значим второй фактор, за ним следует третий, а уже потом
-первый. Следовательно, центроидный метод привел нас
к тем же результатам, что и метод главных компонент.
111 |
Медицинская статистика |
б. Возвратимся в (Результаты факторного анализа), где
можем продолжить изучать другие возможности фактори
зации.
Ответ: центроидный метод как разновидность методов
главных факторов позволил выделить три фактора, объяс няющих более общей ДИСllерсии. Содержательная интерпре
тация данных факторов совпадает с интерпретацией факто
ров, полученных методом главных компонент.
• • • • • • • • • • • • • • • • • • • • • • • • • • • •
• • • • • •
Упражнение 35. • • • • • • • • • • • • • • • • • • • · • •
Факторный анализ ( помощью метода главных компо
нент (пакет SPSS).
УслоВие. Использовать исходные данные, предыдущей
задачи
Выполнить факторный анализ с помощью метода глав
ных компонент и сравнить полученное реUJение с итогами
11акета Statistica.
Решение:
1.Запустим пакет SPSS и введем данные Var1-10.
2.В пункте (Статистики) выберем команды (Снижение
размерности данных) и (Факторный анализ).
з. В окне (Факторный анализ) зададим (Переменные) -
Кнопки этого окна реализуют:
•(Описания) позволяют анализировать корреляцион
ную матрицу. Активизируем (Коэффициенты) и (Уров
"ни значимости).
•Кнопка (Извлечение) позволяет определить метод из
ВJJеч~ния факторов и параметры управления процес
сом:
4.Зададим (Метод главных компонент):
•В (Анализ) оставим (Корреляционную матрицу).
•В блоке (Показ) активизируем (График «Каменистая
осыпь»).
5.В блоке (Извлечение) можно на выбор задать или ко
личество извлекаемых факторов (Количество Факторов),
или минимальный предел значений корреляционной матри цы. В поле (Собственные значения выше) ничего не меняем.
Глава 9. Многомерные статистические методы |
117 |
б. В блоке (Максимум итераций для сходимости) тоже
ничего не меняем.
7. Нажмем (Вращение) и выберем (Варимакс) - (Показ)
-(Повернутое решение).
•Кнопка (Веса) фиксирует и сохраняет факторные веса в качестве переменных. В (Сохранить как перемен
ные) можно задать подходящий метод расчета фак
торных весов:
-(Регрессия).
-(Параметры).
-(Пропущенные значения).
-(Исключать случаи целиком).
-(Формат показа коэффициентов).
-(Сортировать по величине).
-(Подавить абсолютные величины, меньшие, чем...).
•Нажмем ОК в окне (Просмотр результатов), проана
лизируем результаты.
• С помощью (Корреляционной MaTp~цы) найдем, что
. данная матрица· совпадает с полученной ранее в 11а
кете Statistica.
•В окне (Общая объясненная дисперсия) получим сле
дующую информацию:
Собственные значения, общий процент объясненной дис персии, перераспределение доли объясненной дисперсии по
факторам после вращения: для первого, второго и третьего факторов:
•График (<<Каменистая осыпь») аналогичен графику,
полученному в пакете Statistica.
•Из содержания (Матрица повернутых компонент) оп
ределяются факторные нагрузки., фактически совпа
дающие с решением, полученным в пакете Statistica.
Резюме: метод главных компонент в обоих статистичес
ких пакетах приводит практически к одному и тому же ре
шению, выделяя 3 латентных фактора, объясняющих более 2/3 общей дисперсии.
• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •
'18 |
Медицинская статистика |
4. НЕЙРОННЫЕ СЕТИ
Идея нейронных сетей в статистике разрабатывается
не первое десятилетие. Однако только с бурным внедре
нием в жизнь персональных ЭВМ и полноценных статис
тических программных продуктов появилась возможность
широким слоям потребителей использовать алгоритмы
нейронных сетей в повседневной практике.
Как и любой другой статистический продукт, нейрон
ные сети имеют свои ограничения. Их нецелесообразно
использовать там, где достаточно односложные ответы
можно получить, применяя дисперсионный, регрессион ный, кластеРНI;>IЙ или факторный анализы, не говоря уже о первичной обработке данных - описательных приемах. Но в ситуациях, когда, образно говоря, надо разгрести «за
вал» данных, получение осмысленного результата из ко
торого проблематично, - тут-то нейронные сети и MOгyr облеrчить участь исследователя.
Основная идея нейронных сетей в том, что они меха
нически повторяют структуру действительного нейрона (не рвной клетки) мозга человека: эта клеточная структура име
ет несколько отростков - входные - дендриты (их может быть несколько) и один выходной - аксон. Нейрон начи нает передавать информацию через синапсы (узлы связи) другим нейронам только в том случае, когда возбужден, или,
иначе, переполнен, информацией. Дозируя информацию,
можно регулировать активность нейрона.
И на этом фоне удивительной чертой нейронных се
тей является их способность к обучению, чего начисто
лишены все ранее описанные нами методы статистичес
кого анализа. То есть в данном варианте реализуется дей
ствительная структура человеческого мозга: во-первых,
принимать решение, опираясь на функцию памяти о про
шлом опыте; во-вторых, действовать по ассоциации, ис
пользуя обрывочные св.едения о предмете анализа. Согла
ситесь, только наш мозг позволяет человеку, всего лишь
раз в жизни видевшему слона, прикоснувшись к ноге по-