Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
221
Добавлен:
07.03.2015
Размер:
2.69 Mб
Скачать

8.1.4.2. Вычислительные процедуры метода главных

компонент

Решение задачи методом главных компонент сводится к поэтапному преобразованию матрицы исходных данныхX:

где Xматрица исходных данных размерностью п × т; п – число объектов наблюдения; т – число элементарных аналитических признаков;

Z матрица стандартизованных значений признаков, элементы матрицы вычисляют по формуле ;

Rматрица парных корреляций: R =1/nZZ'.

Если предварительная стандартизация данных не проводилась, то на данном шаге получают матрицу S=1/nXX'; элементыматрицы X для расчета S будут центрированными величинами: xij=xij.

Λ диагональная матрица собственных (характеристических) чисел:

.

Множество значений λj находят решением характеристического уравнения |RλE|= 0. λjэто характеристики вариации, точнее показатели дисперсии каждой главной компоненты. Суммарное значение равняется сумме дисперсий элементарных признаковXj. При условии стандартизации исходных данных, когда D(zij)=1, равно числу элементарных признаков т.

Решение характеристического уравнения относительно λ, когда число признаков т достаточно велико и матрица R большой размерности, вызывает трудности при расчете определителя |R|. Они успешно преодолеваются с применением разнообразных математических методов матричной алгебры. Наиболее эффективен и легко поддается алгоритмизации среди них метод, базирующийся на рекуррентных соотношениях Фаддеева. Если А – некоторая симметрическая матрица размерностью т × т, то ее определитель находится по следу матриц, производных из А:

На заключительном этапе расчетов Рт и есть определитель матрицы А (Рт =|A|). Для проверки вычислений может использоваться условие Вт= 0. После вычислений рекуррентных соотношений записы-вается характеристический многочлен.

Значения λ находят после того, как характеристический многочлен приравнивают нулю, получают характеристическое уравнение и решают его относительно характеристических корней λj.

V – матрица нормированных собственных (характеристических) векторов. Число векторов Vj первоначально равно т, т.е. j = 1,m.Получают Vj преобразованием ненормированных собственных векторов U:

,

где |Uj| – норма вектора U, т.е

Необходимость повторного, после получения матрицы Z, нормирования пространства теперь уже обобщенных признаков RF объясняется механическим появлением в ходе предыдущих расчетов результатов, искажающих нормированное пространство.

В свою очередь, собственные векторы Uj находят из матричного уравнения (RλE)U = 0. Реально это означает решение т систем линейных уравнений для каждого λ j при .

В общем виде система уравнений имеет вид

Приведенная система объединяет однородные линейные уравнения, и, так как число ее уравнений равняется числу неизвестных, umj имеет бесконечное множество решений. Конкретные значения собственных векторов при этом можно найти, задавая произвольно по крайней мере величину одной компоненты каждого вектора, и обычно, чтобы не усложнять расчетов, ее приравнивают единице.

А – матрица факторного отображения, ее элементы аri весовые коэффициенты. Вначале А имеет размерность т × т – по числу элементарных признаков Xj, затем в анализе остается r наиболее значащих компонент, r ≤ т . Вычисляют матрицу А по известным данным матрицы собственных чисел Λ и нормированных собственных векторов V по формуле.

F матрица значений главных компонент размерностью rп, или, или.

Матрица F в общем виде записывается:

Пример 8.1. Совокупность из четырех промышленных предприятий оценена по трем характерным признакам: выработке на одного среднегодового работника Х1, уровню рентабельности Х2 и уровню фондоотдачи X3.

В результате предварительных аналитических расчетов по исходным данным X получена матрица парных корреляций

.

Используя алгоритм метода главных компонент, необходимо найти собственные числа и собственные векторы матрицы R и построить матрицы с аналитическими результатами и F)

  1. По рекуррентным соотношениям Фаддеева вычислим определитель матрицы парных корреляций |R|.

Первый шаг:

R=A и A=A1, тогда P1=trA1=1+1+1=3,

.

Второй шаг:

;

,

.

Третий шаг:

=;

.

В итоге |R| = 0,524 и В3= 0. Обратим внимание, что в ходе расчетов все промежуточные матрицы Aj и Bj симметрические.

2. Построим характеристическое уравнение

,

откуда

Таким образом, наши исходные элементарные признаки Х1, Х2, Х3 могут быть обобщены значениями трех главных компонент, причем первая главная компонента F1 объяснит примерно 60 % всей вариации Xj (1,798/3 = 0,599), вторая главная компонента F2 объяснит 29,2 % меньшую часть по сравнению с F1 общей дисперсии (0,875/3 = 0,292), наконец, третья главная компонента F3 охватывает оставшуюся, еще не объясненную вариацию входных признаков 10,9 % (0,327/3= 0,109). Все главные компоненты F1, F2, F3 объясняют вариацию Х1, Х2, Х3 полностью, на 100 % (59,9 + 29,2 + 10,9).

Собственные векторы матрицы парных корреляций R найдем решением трех систем линейных уравнений соответственно для λ1 = 1,798; λ2 = 0,875 и λ3= 0,327.

Для определения области решений в каждой системе будем задавать одному из неизвестных признаков и3j значение, равное единице.

Первая система уравнений для λ1 = 1,798:

Вторая система уравнений для λ2 = 0,875:

Третья система уравнений для λ2 = 0,327:

Матрица собственных векторов принимает вид

.

Пронормируем векторы Uj, т.е. найдем Vj =Uj/|Uj| и получим матрицу нормированных значений собственных векторов

.

Так как Vматрица, отображающая ортонормированное пространство, в общем должно выполняться условие VV' = Е.

Матрицу факторного отображения (А) получим из матричного уравнения А = VΛ1/2:

Матрица А содержит частные коэффициенты корреляции, представляющие связи исходных признаков Xj и главных компонент Fr. Соответственно все элементы аij могут варьировать в пределах от – 1 до +1. Из равенства А'А = Λ следует условие. Проверим,как оно выполняется на вычисленных данных матрицы А:

;

.

Теперь запишем системы линейных уравнений зависимости элементарных признаков Zj и главных компонент или обобщенных признаков Fr при r =j = 3:

На завершающем шаге алгоритма вычислим значения главных компонент для всех наблюдаемых объектов и построим матрицу

F = A–1Z', а матрица Z известна из условия задачи.

Более привычной формой записи п × r значений главных компонент является транспонированная матрица F:

Центр распределения значений главных компонентFr находится в точке (0, 0, ..., 0), как это показано на рис. 8.9. Отсюда следует правило равенства суммы элементов каждого столбца матрицы F нулю. В примере это правило выдерживается.

Далее аналитические выводы по результатам расчетов следуют уже после принятия решения о числе значащих признаков Zj и главных компонент Fr и определения названий главных компонент.

Соседние файлы в папке Тер вер и мат стат