Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Tema_3

.pdf
Скачиваний:
20
Добавлен:
27.05.2015
Размер:
945.13 Кб
Скачать

1

Тема № 3. Множественная регрессия и корреляция.

План:

1.спецификациямодели

1.1.отбор факторов

1.2.выбор формы уравнениярегрессии

2.оценка параметров уравнениямножественной регрессии

3.частные уравнениярегрессии

4.множественнаякорреляция

5.частнаякорреляция

6.оценка надёжности результатов множественной регрессии и корреляции

7.фиктивные переменные во множественной регрессии.

1. Спецификация модели

Множественная регрессия – один из распространённых методов в эконометрике. Она используется при решении проблем спроса, доходности акций, при изучении функций издержек производства в макроэкономических расчётах и т.д.

Главная цель множественной регрессии – построить модель с большим числом факторов, определив влияние каждого из них в отдельности и совокупное влияниенарезультирующий показатель.

Уравнениемножественной регрессии – это уравнениевида y=f(xi)+E Построение множественной регрессии начинается со спецификации модели.

Онавключает 2 вопроса:

отбор факторов;

выбор видауравнения корреляции;

1.2. Отбор факторов

Отбор факторов осуществляется в 2 стадии. На первой стадии подбираются факторы, исходя из сущности проблемы. На второй – на основе матрицы показателей корреляции определяют t-критерий для параметров регрессии.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1.они должны быть количественно измеримы (если необходимо включить качественный фактор, не имеющий количественного измерения, ему нужно придать количественную определённость)

2.факторы не должны быть коллинеарными (мультиколлинеарными) и не должны быть функционально зависимыми.

Факторы х1 и х2 являются коллинеарными (находятся в линейной зависимости), если Rx1x2>=0,7. Если факторы коллинеарные, то они дублируют друг друга и следовательно один из них следует исключить из регрессии. При этом предпочтение отдаётся не фактору более тесно связанному с результатом, а фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи сдругими факторами.

2

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Большие трудности возникают при наличии мультиколлинеарноси факторов: когда более чем 2 фактора связаны между собой множественной зависимостью, то есть существует совокупное воздействие факторов друг надруга.

Включение в модель мультиколлениарных факторов нежелательно, так как приводит к следующим последствиям:

1.затрудняется интерпретация параметров множественной регрессии (теряется эконометрический смысл);

2.оценки параметров не надёжны, так как содержат стандартные ошибки и меняются сизменением наблюдений.

Для оценки мультиколлинеарности используют определитель матрицы парных коэффициентов корреляции между факторами:

Пример: для уравнения регрессии с 3 неизвестными y=a+b1x1+b2x2+c3x3+E, матрицакоэффициентов корреляции имеет вид:

Если факторы xi xj (i≠j) неколлинеарны, то есть rxixj=0, то Det|R|=1:

Если между факторами существует полная линейная зависимость, то есть парные коэффициенты корреляции между всеми парами факторов равны 1 rxixj=1, то

Det|R|=0:

Итак, чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлениарность факторов и ненадёжней результаты множественной регрессии. Наоборот, чем ближе к 1 определитель, тем меньше мультиколлениарность факторов.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлениарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов и рассматриваются следующиекоэффициенты детерминации:

R2x1|x2,x3… R2x2|x1,x3… R2x3|x1,x2

Чем ближе значение коэффициента детерминации к 1, тем сильнее проявляется мультиколлениарность факторов. Сравнивая между собой коэффициенты множественной детерминации выделяют переменные, ответственные

3

за мультиколлинеарность, оставляя факторы с минимальной величиной коэффициентамножественной детерминации.

Отбор факторов, включаемых в регрессию – один из важнейших этапов использования регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные:

1.метод исключения (отсев факторов из полного его набора);

2.метод включения (дополнительноевведениефактора);

3.шаговый регрессионный анализ (исключениеранеевведённого фактора). Парные коэффициенты корреляции не в полной мере решат вопрос о

включении факторов в модель. Эту роль выполняют частные коэффициенты корреляции (матрица частных коэффициентов корреляции). При отборе факторов следует пользоваться правилом: число включаемых факторов обычно в 6-7 раз меньшесовокупности, накоторой строится регрессия.

1.2. Выбор формы уравнения регрессии

Рассматривают разные виды уравнений множественной регрессии: линейные

инелинейные.

I. Линейная регрессия вида ytx=a+b1x1+b2x2+…+bpxp

коэффициенты при х(bi) называют коэффициентами чистой регрессии. Они характеризуют среднее значение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закреплённых на среднем уровне.

Пример: ytx=0,5+0,35x1+0,73x2

Здесь y – расходы семьи замесяц напродукты питания (тыс. руб) x1 - месячный доход одного членасемьи (тыс. руб)

x2 - Размер семьи (человек)

Анализ уравнения показывает, что с ростом месячного дохода на 1 члена семьи на 1 тыс. руб, расходы на питание возрастут в среднем на 350 руб при среднем размере семьи. С увеличением члена семьи на 1 человека, расходы на питание, при тех же доходах увеличатся на 730 руб. Параметр а (0,5) в этом уравнении неинтерпретируется.

II. Нелинейная регрессия.

Степенная функция:

Коэффициенты bj являются коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменяется результат с изменением соответствующего фактора на 1 %, при неизменном действии других факторов. Этот вид уравнения используют в производных функциях и в исследованиях спроса и потребления.

Другиелинеаризируемыедля построения множественной регрессии. Экспонента

Гипербола

Чем сложнее функция, тем менее интерпретируемы её показатели и параметры.

4

2. Оценка параметров уравнения множественной регрессии

Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов.

Рассмотрим линейную зависимость: ytx=a+b1x1+b2x2+…+bpxp Возможны 2 подхода:

Первый подход: строится система нормальных уравнений, решение которых позволяет получить оценки параметров регрессии. Для линейной зависимости имеем:

Еёрешениеможет быть осуществлено методом Крамераили определителей:

,

где - определитель системы, , - частныеопределители.

Частные определители получаются из путём замены соответствующего столбцаопределителя настолбец свободных членов.

Второй подход: На основе матрицы парных коэффициентов корреляции строится уравнениерегрессии в стандартизованном масштабе.

, … - стандартизованныепеременные, рассчитанныепо формулам:

,

, где

,

.

- стандартизованныекоэффициенты регрессии.

Применяя метод наименьших квадратов к методу множественной регрессии в стандартизованном масштабе, после соответствующих преобразований получим сумму нормальных уравнений вида:

5

Решая систему методом определителей, находят стандартные коэффициенты регрессии - .

Стандартные коэффициенты регрессии показывают, на сколько среднеквадратических отклонений (сигм) изменяется в среднем результат, если соответствующий фактор хi изменяется на одну сигму при неизменном среднем уровне других факторов. Так как все переменные центрированы и нормированы, то стандартизованные коэффициенты регрессии сравнимы между собой. Сравнивая их между собой можно ранжировать факторы по силеих воздействия нарезультат.

В парной зависимости стандартизованный коэффициент регрессии – это коэффициент корреляции – rxy.

Во множественной регрессии коэффициенты «чистой» регрессии связаны со стандартизованными коэффициентами регрессии следующими формулами:

Это позволяет от уравнения регрессии в стандартном масштабе

переходить к уравнению регрессии в натуральном масштабе.

Параметр аопределяется по следующей формуле: .

Рассмотрение стандартных коэффициентов регрессии позволяет их использовать при отсеве факторов из модели, то есть исключают факторы с наименьшим значением

Рассматривая нелинейные зависимости но, приводимые к линейному виду, применяют метод наименьших квадратов, который используют не к исходной информации, ак преобразованным данным. Например, для степенной зависимости:

здесь переменные выражены в логарифмах, далее обработка метода наименьших квадратов таже:

1.строится сумманормальных уравнений

2.определяются параметры lg a ,b1, b2…bp

3.потенцируется значение lg a

4.записывают общий вид степенной функции

Так как параметры степенной функции представляют собой коэффициенты эластичности, то они сравнимы по разным факторам. Для других зависимостей методика аналогична. Параметры более сложных моделей не имеют чёткой эконометрической интерпретации.

6

3. Частные уравнения регрессии

На основе линейного уравнения регрессии y=a+b1x1+b2x2+…+bpxp+Е могут быть найдены частныеуравнения регрессии. Их будет столько, сколько переменных. Частные уравнения регрессии – это уравнения, которые связывают результативный признак с соответствующими факторами х, при закреплении других факторов на среднем уровне. При подстановке в эти уравнения средних значений соответствующих факторов, уравнения принимают вид парных уравнений линейной регрессии, то есть имеем:

где

В отличие от парной регрессии, частное уравнение характеризует изолированное влияние фактора на результат. На основе частных уравнений регрессии определяю частныекоэффициенты эластичности.

, где - коэффициенты регрессии для фактора в уравнении множественной регрессии. - частноеуравнениерегрессии.

7

4. Множественная корреляция.

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции R и его квадрата R2. Показатель множественной корреляции оценивает тесноту совместного влияния факторов на результат. Показатель множественной корреляции R находят как индекс множественной корреляции:

-общая дисперсия результативного признака

-остаточная дисперсия

R принадлежит отрезку [0,1]. Чем ближе R к 1, тем теснее связь результирующего признакасо всем набором исходных факторов.

При правильном включении в модель факторов величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Сравнивая индексы множественной парной корреляции, делают вывод о целесообразности включения в уравнениетого или иного фактора.

При линейной зависимости признаков формула индекса корреляции выглядит так: ,

- стандартизованныекоэффициенты регрессии

- парныекоэффициенты корреляции результатаскаждым фактором

Этаформуланазывается линейный коэффициент множественной корреляции

(совокупный коэффициент корреляции). Его можно определить через матрицу парных коэффициентов корреляции:

- определитель матрицы парных коэффициентов корреляции

- определитель матрицы межфакторной корреляции Пример: для линейной множественной регрессии имеем:

получается из определителя вычёркиванием первого столбца и первой строки.

8

Индекс множественной корреляции равен совокупному коэффициенту не только при множественной зависимости, но и для криволинейной зависимости, нелинейной по переменным и не равен совокупному коэффициенту корреляции для криволинейной зависимости, нелинейной по оцениваемым параметрам.

Индекс детерминации – R2 – для нелинейных по оцениваемым параметрам функций принято называть квази- R2. Для его определения по формулам используются преобразования: логарифмирование и потенцирование, то есть сначала необходимо найти теоретические значения (ln y - теоретич), а затем транспонировать их через антилогарифмы (). И далее находят квази- R2,

пользуясь формулой

Величинаквази- R2 несовпадает ссовокупным коэффициентом корреляции. Чтобы не допустить возможного преувеличения тесноты связи, используют

скорректированный индекс множественной корреляции. Он содержит поправку начисло степеней свободы и вычисляется по формуле:

;

m – число параметров при переменной х. n – число наблюдений.

Так как

, то скорректированный индексравен:

Чем больше m, тем большеразличиемежду и .

Низкое значение коэффициента множественной корреляции означает, что в модель не внесены существенные факторы и модель не отражает реальное соотношение между переменными включёнными в модель, следовательно требуется улучшениекачествамодели.

9

5.Частная корреляция.

Целесообразность внесения того или иного фактора в модель доказывается величиной показателя частной корреляции. Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влиянии других факторов, включённых в уравнениерегрессии.

Если рассматривается регрессия с р факторами, то возможны частные коэффициенты корреляции первого, второго и так далеер - первого порядка:

- при постоянном действии фактора .

- при постоянном действии факторов ,.

- при постоянном действии факторов .

Сопоставление коэффициентов частной корреляции разного порядка по мере увеличении числа внешних факторов показывает процесс “очищения” зависимости результатного признака с наследственным фактором. Хотя частная корреляция разных порядков удобна при анализе, в практических исследованиях предпочтение отдают показателям частной корреляции самого высоко порядка, так как эти порядки являются дополнительными к уравнению множественной регрессии.

Для линейной модели множественной регрессии коэффициент частной корреляции можно определить по формуле:

,

-множественный коэффициент детерминации всего

комплекса p факторов срезультатом.

- множественный коэффициент детерминации без введения в модель фактора .

Данный коэффициент частной корреляции позволяет измерить тесноту связи между y и xi при неизменном уравнении других факторов. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается.

Коэффициенты парной корреляции называют коэффициентами нулевого порядка.

Коэффициенты частной корреляции более высоких порядков можно определить через коэффициент частной корреляции более низких порядков по

рекуррентной формуле.

;

Например, при двух факторах и i=1 данная формулаимеет вид:

Для уравнения регрессии с тремя факторами частные коэффициенты корреляции второго порядка определяются на основе частных коэффициента корреляции первого порядка.

10

Подсчитанные по рекуррентной формуле частные коэффициенты корреляции изменяются в пределах от –1 до +1. А по формуле через множественные коэффициенты детерминации от 0 до 1.

В эконометрике частные коэффициенты корреляции не имеют самостоятельного значения. В основном их используют на стадии формирования модели в процедуре отсева факторов: строя многофакторную модель методом исключения переменных на первом шаге определяется уравнение регрессии с полным набором факторов и рассчитывается матрица частных коэффициентов корреляции. Далее выбирается фактор с наименьшей несущественной по t - критерию величиной частного коэффициентакорреляции.

Исключив данный фактор из модели, строится новое уравнение регрессии и процедура продолжается до тех пор, пока не окажется, что все частные коэффициенты корреляции существенно отличаются от нуля. Если исключён несущественный фактор, то множественные коэффициенты детерминации на двух смежных шагах построение регрессионной модели почти не отличаются друг от друга, то есть , гдер – число факторов.

Зная частные коэффициенты корреляции можно определить совокупный коэффициент корреляции по формуле:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]