Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MSM.doc
Скачиваний:
41
Добавлен:
27.04.2019
Размер:
1.8 Mб
Скачать
  1. Метод главных компонент.

Метод главных компонент (МГК) дает возможность по m – числу исходных признаков выделить m главных компонент (ГК), или обобщенных признаков. При этом пространство ГК ортогонально, что предотвращает появление эффекта мультиколлинеарности.

Допускаем, что значения множества взаимосвязанных признаков порождают некоторый общий результат, следовательно, можно записать: F = XB, где B – вектор параметрических значений лин. уравнения. Обязательным условием при этом является выполнение равенства D(X) = D(XB). Отсюда D(F) = BSB, где S – ковариационная матрица (дисперсионная оценка МСВ X)

Поиск ГК сводится к задаче последовательного выделения 1ой ГК F1, обладающей макс. дисперсией, второй ГК, имеющей 2ую по величине дисперсию, и т.д. Подобная задача имеет решение при условии введения ограничений. Пусть . При BB = 1 максимизируем BSB, используя метод множителей Лагранжа: и , откуда . След-но, получаем |S-E|B = 0 и характеристич. ур-ние для поиска j будет: |S-E| = 0.

Из множества значений характеристических чисел j относительно первого, наибольшего 1 находим вектор B1 значений для первой ГК F1, для второго по величине характеристического числа 2 - вектор значений второй компоненты B2 и т.д. до m и Bm для Fm при m – исходном числе анализируемых признаков. Здесь B – векторы величин, представляющих координаты главных компонент Fr в пространстве признаков RX, они же характеристики силы связи r-ой ГК и j-го признака Xj.

Если исходную матрицу данных Х предварительно стандартизировать, то матрица ковариаций S перейдет в матрицу парных корреляций R, и вектор В будет собственным вектором по стандартизированным данным Z. Решающее уравнение в матричной форме принимает вид: (R-E)Z = 0

Результаты применения МГК представляются данными матрицы отображения А. Возможна итоговая запись зависимости значений исходных признаков от значений ГК:

Z = AF’ или zij = aj1f1i+aj2f2i+…+ajrfri (1)

Либо зависимости значений ГК от значений элементарных признаков:

F = A-1Z или (2)

В уравнениях (1) и (2) приняты обозначения: ajr – весовой коэффициент r-ой ГК для j-ой переменной, оценка частного коэффициента корреляции для Fr и Xj (элементы j-ой строки матрицы А); arm – весовые коэф-ты (характеристики силы связи) для m элементар. признаков (j = 1,..,m) для r-ой ГК

Уравнения (2) относительно F являются производными от (1):

A = V1/2  (V1/2)A = (V1/2)V1/2AA = Z = AF  (AA)-1AZ = (AA)-1AAF  (AA)-1AZ = FF = -1AZ, т.е.

В упрощенном виде, для двумерной СВ, процедуру выделения ГК можно показать геометрически:

1 ) первоначально имеется некоторое эмпирическое распределение данных в двумерном пространстве с центром (1;2)

2) Центрированием и стандартизацией исходное пространство признаков сжимается и система координат переносится в центр распределения данных

3) Решением матричного уравнения (R-E)Z = 0 находят параметры эллипса, описывающего эмпирическое распределение объектов в нормированном признаковом пространстве RZ, соответственно устанавливается положение главных компонент (осей), обобщающих вариацию признаков Z1 и Z2.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]