Экспериментальная часть

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Юго-Западный государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

лаба по эконометрике (Ком) - 7.doc

Скачиваний:

Добавлен:

07.11.2018

Размер:

265.73 Кб

Скачать

☆

1 / 21 2 > Следующая >>>

Лабораторная работа № 7 Применение компонентного анализа при изучении социально-экономических явлений

Цель работы

Цель данной лабораторной работы заключается в освоении метода линейных компонент.

Краткая теоретическая часть

Основные понятия, определения, формулы

Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обслуживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому.

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер-рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров.

Именно эти принципиальные установки заложены в сущность компонентного анализа. Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод - метод главных компонент. В этом методе линейные комбинации случайных величин определяются характеристическими векторами ковариационной матрицы. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.

Компонентный анализ предназначен для преобразования системы исходных признаков, в систему новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k – ая, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Модель компонентного анализа имеет вид:

(1.2.1)

где - “вес”, факторная нагрузка, - ой главной компоненты на j-ой переменной; - значение v – ой главной компоненты для i-ого наблюдения (объекта), где v=1,2,…,k.

(1.2.2)

матричной форме модель (1.2.2) имеет вид:

где:

- матрица значений главных компонент размерности ;

- матрица факторных нагрузок размерности;

- транспонированная матрица A;

- значение v – ой главной компоненты у i – ого наблюдения (объекта);

- значение факторной нагрузки v - ой главной компоненты на j-й переменной.

Матрица F описывает n наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, то есть:

(1.2.3)

(1.2.4)

а главные компоненты не коррелированны между собой. Из этого следует, что,

(1.2.5)

где,

- единичная матрица размерности .

Выражение (1.2.11) может быть также представлено в виде:

(1.2.6)

при

и 0 при

С целью интерпретации элементов матрицы A, рассмотрим выражение для парного коэффициента корреляции, между - переменной и, например, -ой главной компонентой. Будем иметь

(1.2.7)

ринимая во внимание, окончательно получим:

Рассуждая аналогично, можно записать в общем виде:

(1.2.8)

для всех и .

Таким образом, элемент матрицы факторных нагрузок А, характеризует тесноту линейной связи между - исходной переменной и - й главной компонентой, то есть .

Рассмотрим теперь выражение для дисперсии - й нормированной переменной. С учетом будем иметь:

где .

Окончательно получим:

(1.2.9)

По условию переменные нормированы и Таким образом, дисперсия -й переменной представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле:

(1.2.10)

Компонентный анализ проводится в следующей последовательности.

(1.2.11)

а основании матрицы исходных данных:

(1.2.12)

азмерности

, где

- значение

-ого показателя у

-ого наблюдения (i=1,2,…,n; j=1,2,…,k) вычисляют средние значения показателей

, а также

и матрицу нормированных значений:

(1.2.13)

элементами:

Рассчитывается матрица парных коэффициентов корреляции:

(1.2.14)

с элементами:

(1.2.15)

где,

(1.2.16)

а главной диагонали матрицы R т.е. при j=1,

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметрической матрицы R всегда существует такая ортогональная матрица U, что выполняется условие:

(1.2.17)

где,

- диагональная матрица собственных значений размерности ;

- ортогональная матрица собственных векторов размерности .

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения положительны для всех v=1,2,…,k.

В компонентном анализе элементы матрицы - ранжированы Как будет показано ниже, собственное значение характеризует вклад v – й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя k-ая – наименьший.

В ортогональной матрице U собственных векторов, v-й столбец является собственным вектором, соответствующим - му значению.

Собственные значения находятся как корни характеристического уравнения:

(1.2.18)

(1.2.19)

обственный вектор

соответствующий собственному значению

корреляционной матрицы R, определяется как отличное от нуля решение уравнения:

(1.2.20)

ормированный собственный вектор

равен:

Представим матрицу факторных нагрузок A в виде:

(1.2.21)

(1.2.22)

v-й столбец матрицы A:

г де, - собственный вектор матрицы R , соответствующий собственному значению :

Найдем норму вектора :

(1.2.23)

(1.2.24)

десь учитывалось, что вектор

нормированный и

Таким образом,

(1.2.25)

ожно сделать вывод, что собственное значение

характеризует вклад v- й главной компоненты в суммарную дисперсию всех исходных признаков. Следует:

(1.2.26)

бщий вклад всех главных компонент в суммарную дисперсию равен k . Тогда удельный вклад v-й главной компоненты определяется по формуле:

(1.2.27)

Суммарный вклад m первых главных компонент определяется из выражения:

Обычно для анализа используют m главных компонент, суммарный вклад которых превышает 60-70%.

Матрица факторных нагрузок A используется для экономической интерпретации главных компонент, которые представляют линейные функции исходных данных. Для экономической интерпретации используется лишь те , для которых, .

Значения главных компонент для каждого i-ого объекта задаются матрицей F .

(1.2.28)

атрицу значений главных компонент можно получить из формулы:

(1.2.29)

ткуда,

г де, Z-матрица нормированных значений исходных показателей.

Экспериментальная часть

В качестве примера рассмотрим объёмы производства (тыс. ед.) 5 видов тортов некоторой кондитерской фабрикой за последние 20 лет.

Таблица 1. Исходные данные

Вид №1	Вид №2	Вид №3	Вид №4	Вид №5
243	291	505	486	444
229	285	547	464	486
246	322	586	494	476
212	309	490	475	515
233	315	465	475	455
249	323	453	487	460
273	296	540	494	472
259	308	508	468	516
202	292	557	508	497
222	312	513	478	444
261	309	463	495	508
243	296	549	544	457
258	309	520	510	491
263	313	560	482	552
295	261	581	500	500
224	279	499	478	497
217	304	473	464	470
275	293	507	475	496
221	330	563	487	540
260	310	431	492	477

Проведём анализ полученных данных с помощью метода главных компонент.

М атематические ожидания значений показателей

С тандартные ошибки

(1.3.1)

атрица нормированных значений будет определяться по формуле

(1.3.2)

атрица парных коэффициентов корреляции R

М атрица собственных чисел R

(1.3.3)

атрица факторных нагрузок (весовых коэффициентов)

г де V – матрица собственных векторов R.

Главные компоненты

(1.3.4)

.е. нормированные значения исходных признаков можно выразить через главные компоненты как

(1.3.5)

ткуда

(1.3.6)

з матрицы собственных чисел видно, что наибольший вклад в дисперсию исходных признаков вносят 2-я, 5-я, и 3-я компоненты (их суммарный вклад составляет 75.6%). Поэтому дальнейший анализ можно проводить, используя только эти 3 параметра. Остальные компоненты, вносящие наименьший вклад в дисперсию будем считать равными нулю. Т. е. мы предполагаем, что

Полученные значения главных компонент не имеют экономического смысла, но геометрически их можно трактовать как координаты 20 точек в пространстве R⁵ в системе координат, полученной поворотом на некоторый угол относительно другой системы, в которой по нормированным значениям и были построены эти точки.

Так как главные компоненты не коррелированы друг с другом, то их значения можно использовать в регрессионном анализе. Допустим, мы хотим исследовать зависимость некоторого признака Y (например, прибыли предприятия) от объёмов производства тортов. Поскольку объёмы производства каждого вида взаимосвязаны, то регрессионный анализ, проведённый по исходным данным, может привести к неадекватным результатам. Поэтому, лучше построить модель признака Y по главным компонентам (не обязательно по всем, в нашем случае можно взять только компоненты 1, 3, 4 и 5). Полученное соотношение Y=F(f) можно преобразовать в соотношение Y=F₁(z), а затем в Y=F₂(x). Полученная таким способом модель будет более точно описывать зависимость признаков, поскольку при её построении будут использованы некоррелированные друг с другом данные.

В нашем случае в качестве параметра Y возьмём объём спроса на торты в данном регионе за последние 20 лет.

Таблица №2. Спрос на торты за последние 20 лет

Объём спроса на торты (тыс. шт)
119.2
120.1
121.5
120.2
119.6
120.0
119.9
120.6
119.9
120.0
119.8
119.5
120.4
122.0
118.8
118.4
119.3
119.5
122.8
119.0

(1.3.7)

олученная модель примет вид

(1.3.8)

ерез переменные z модель запишется как

(1.3.9)

через исходные признаки x

Как видно из полученной модели наибольший вклад в спрос вносит вид №2, т. е. торты вида №2 за исследуемый период пользовались наибольшим спросом, торты №1 – наоборот не пользовались спросом. Большое значение свободного члена выражения показывает, что большая часть спроса на торты удовлетворялась тортами других видов, не рассмотренных здесь, т. е. тортами, выпускаемыми другими фабриками.

1 / 21 2 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
12.04.2015167.42 Кб15лаб. работа №68.doc
#
12.04.2015299.17 Кб13Лаб1ИнстрМатер.rtf
#
07.05.2019249.34 Кб21лаб_системное программ.doc
#
12.04.20159.53 Mб7лаба 5.doc
#
07.11.2018269.82 Кб2лаба по эконометрике (Класт) - 8.doc
#
07.11.2018265.73 Кб5лаба по эконометрике (Ком) - 7.doc
#
07.11.2018332.8 Кб7лаба по эконометрике5_new.doc
#
15.03.20162 Mб83ЛабДМ(1-7)Свиридов.doc
#
12.04.2015335.36 Кб25Лабораторная работа 1 Сп и РРЛ СП.doc
#
12.04.20151.19 Mб13Лабораторная работа 3 Сп и РРЛ СП.doc
#
12.08.2019561.15 Кб0Лабораторная работа №1 однополуп выпрям.doc