Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
221
Добавлен:
07.03.2015
Размер:
2.69 Mб
Скачать

8.1.4. Метод главных компонент

8.1.4.1. Общая математическая модель метода

главных компонент

Из числа методов, позволяющих обобщать значения элементарных признаков, метод главных компонент выделяется простой логической конструкцией, и в то же время на его примере становятся понятными общая идея и целевые установки многочисленных методов факторного анализа.

Метод главных компонент дает возможность по т – числу исходных признаков, выделить т главных компонент, или обобщенных признаков. Пространство главных компонент ортогонально.

Математическая модель главных компонент базируется на логичном допущении, что значения множества взаимосвязанных признаков порождают некоторый общий результат. Предположив линейную форму связи признаков Xj, запишем в матричной форме уравнение зависимости результата F от X: F = ХВ, где В – вектор параметрических значений линейного уравнения связи. Условием выполнения такого равенства является соответствие дисперсий, т.е. D (F) = D (ХВ). Поскольку Xмногомерная случайная величина, ее дисперсионная оценка это ковариационная матрица S. Постоянная величина В выносится за знак дисперсии и возводится в квадрат, получаем D(F)=B'SB.

Поиск главных компонент сводится к задаче последовательного выделения первой главной компоненты F1, обладающей максимальной дисперсией, второй главной компоненты, имеющей вторую по величине дисперсию, и т.д. Подобная задача имеет решение при условии введения ограничений. Пусть

В'В = b12+b22+...+ b m2=1.

При В'В=1 максимизируем B'SB, используя метод множителей Лагранжа:

;

, откуда SBλB = 0.

Следовательно, получим |S – λE|B=0 и характеристическое уравнение для поиска λj будет |S– λE| = 0.

Из множества значений характеристических чисел λj относительно первого, наибольшего λ1 находим вектор В1 значений для первой главной компоненты F1, для второго по величине характеристического числа λ2 вектор значений второй компоненты В2 и т.д. до λm и Вm для Fm при т – исходном числе анализируемых признаков. Здесь В – векторы величин, представляющих координаты главных компонент Fr в пространстве признаков Rx, они же характеристики силы связи r-й главной компоненты и j-го признака Xj.

Если исходную матрицу данных X предварительно стандартизировать, то матрица ковариаций S перейдет в матрицу парных корреляций R и вектор В будет собственным вектором по стандартизованным данным U. Решающее уравнение в матричной форме принимает вид (R λE)U = 0.

Результаты применения метода главных компонент представляются данными матрицы отображения А. Возможна итоговая запись зависимости значений исходных признаков от значений главных компонент

Z = AF' или

(8.1)

либо зависимости значений главных компонент от значений элементарных признаков

F = A–1Z' или .

(8.2)

В уравнениях (8.1) и (8.2) приняты обозначения: zij значение j стандартизованной переменной по i-му объекту наблюдения;

fri r-я главная компонента Fr по i-му объекту наблюдения;

ajrвесовой коэффициент r-й главной компоненты для jпеременной, оценка частного коэффициента корреляции для Fr и Xj (элементы j-й строки матрицы А);

aтrвесовые коэффициенты (характеристики силы связи) т элементарных признаков (j =) для r-й главной компоненты.

Уравнения (8.2) относительно F (главных компонент) являются производными от (8.1). Покажем это.

Известно, что алгебраически A= VΛ1/2. Умножим обе части матричного уравнения слева на (VΛ1/2) и легко убедимся, что А'А = Λ. Далее имеем Z = AF, умножим обе части этого уравнения на А', затем на (А'А)– 1 и получим F = (A'A)–1A'Z, или F = Λ–1A'Z, т.е.

,

(8.3)

где alr,a2r,...,amrэлементы r-го столбца для r-й главной компоненты матрицы факторного отображения А.

В упрощенном виде для двумерной случайной величины процедуру выделения главных компонент можно показать геометрически. На рис. 8.9 видно, что задача выделения главных компонент сводится к поэтапному решению классических вопросов аналитической геометрии: изменению масштаба пространства, повороту координатной системы, координатному отображению векторов в старой системе координат и новой после поворота. Это позволяет видеть возможность отображения Z в F и, наоборот, F в Z, что записано несколько выше в виде функциональных линейных уравнений связи (8.1) и (8.2). Первоначально число главных компонент равно числу исходных элементарных признаков т.

Рис.8.9. Геометрическая интерпретация метода главных компонент: а – первоначально имеется некоторое эмпирическое распределение данных в двумерном признаковом пространстве с центром (μ1; μ 2); б – центрированием и стандартизацией данных исходное пространство признаков сжимается, и система координат переносится в центр распределения данных; в – решением матричного уравнения (R - λE)V= 0 находят параметры эллипса, описывающего эмпирическое распределение объектов в нормированном признаковом пространстве Rz, соответственно устанавливается положение главных компонент (осей), обобщающих вариацию признаков Z1 и Z2

Соседние файлы в папке Тер вер и мат стат