Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика 327з.doc
Скачиваний:
148
Добавлен:
11.03.2015
Размер:
2.34 Mб
Скачать

87

1. Парная регрессия и корреляция

1.1. Оценка параметров, оценка адекватности модели

В регрессионном анализе рассматривается односторонняя стохастическая зависимость случайной переменной у от одной (или нескольких) неслучайной независимой переменной х.

Рассмотрим линейную модель и представим ее в виде

=b0+b1x. (1)

Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b0,b1) используя метод наименьших квадратов (МНК).

Согласно МНК неизвестные параметры b0иb1выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений yiот значений, найденных по уравнению регрессии (1), была минимальной:

. (2)

На основании необходимого условия экстремума функции двух переменных S=S(b0,b1) (4) приравняем к нулю ее частные производные, откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии. Затем, разделив обе части уравнений системы наn, получим систему нормальных уравнений в следующем виде:

(3)

где соответствующие средние определяются по формулам:

; (4); (6)

; (5). (7)

Решая систему (3), найдем

, (8)

где выборочная дисперсия переменной х:

, (9)

 выборочный корреляционный момент или выборочная ковариация:

. (10)

Коэффициент b1называетсявыборочным коэффициентом регрессииYпоX.

Коэффициент регрессии упохпоказывает, на сколько единиц в среднем изменяется переменнаяупри увеличении переменнойхна одну единицу.

Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.

Если r> 0 (b1> 0), то корреляционная связь между переменными называется прямой, еслиr< 0 (b1< 0),обратной.

Формулы для расчета коэффициента корреляции имеют следующий вид:

; (11)

. (12)

Выборочный коэффициент корреляции обладает следующими свойствами:

1. Коэффициент корреляции принимает значения на отрезке [1: 1], т.е.1 ≤r≥ 1.

2. При r=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.

3. При r= 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна осиОХ.

В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной убудут в большей или меньшей мере отклоняться от функции регрессии(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:

у=(х) +,

где случайная переменная (случайный член), характеризующая отклонение от функции регрессии.

Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).

1. В модели yi=0+1xi+iвозмущениеi есть величина случайная, а объясняющая переменнаяxi – величина неслучайная.

2. Математическое ожидание возмущения i равно нулю:

M(i) = 0. (13)

3. Дисперсия возмущения iпостоянна для любогоi:

D(i) =2. (14)

4. Возмущения iиj не коррелированны:

M(ij) = 0 (ij). (15)

5. Возмущения i есть нормально распределенная случайная величина.

Оценкой модели yi=0+1xi+iпо выборке является уравнение регрессии=b0+b1x. Параметры этого уравненияb0иb1определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели определяется с помощьюдисперсии возмущений (ошибок)илиостаточной дисперсии.

Теорема ГауссаМаркова. Если регрессионная модельyi=0+1xi+iудовлетворяет предпосылкам 15, то оценки b0,b1имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, оценки b0иb1в определенном смысле являются наиболееэффективнымилинейными оценками параметров0и1.

Проверить значимость уравнения регрессии– значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров.

Нулевая гипотеза Н0 – это основное проверяемое предположение, которое обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.

Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей или альтернативной гипотезой.

Коэффициент регрессии (b1) является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученного значения. Выдвигаем нулевую гипотеза (Н0) о равенстве нулю коэффициента регрессии (Н0:b1 = 0) против альтернативной гипотезы (Н1) о неравенстве нулю коэффициента регрессии (Н1:b1  0). Для проверки гипотезы Н0 против альтернативы используется t-статистика, которая имеет распределение Стьюдента с (n  2) степенями свободы (парная линейная регрессия).

Коэффициент регрессии надежно отличается от нуля (отвергается нулевая гипотеза Н0), еслиtнабл>t;n-2. В этом случае вероятность нулевой гипотезы будет меньше выбранного уровня значимости.t;n-2критическая точка, определяемая по математико-статистическим таблицам.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

Согласно основной идее дисперсионного анализа

(16)

или

Q=QR+Qe, (17)

где Q– общая сумма квадратов отклонений зависимой переменной от средней, аQRиQe– соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 1.

Средние квадраты иs2(табл. 1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменнойхи воздействием неучтенных случайных факторов и ошибок;m– число оцениваемых параметров уравнения регрессии;п– число наблюдений.

При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины иимеют2-распределение соответственно ст– 1 иптстепенями свободы.

Таблица 1

Компоненты дисперсии

Сумма квадратов

Число степеней свободы

Средние квадраты

Объясненная

m – 1

Остаточная

nm

Общая

n – 1

Поэтому уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики

, (18)

где табличное значениеF-критерия ФишераСнедекора, определяемое на уровне значимостиприk1=m– 1 иk2=nmстепенях свободы.

Учитывая смысл величин иs2, можно сказать, что значениеFпоказывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

Для парной линейно регрессии т= 2, и уравнение регрессии значимо на уровне(отвергается нулевая гипотеза), если

. (19)

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b1, который имеетt-распределение Стьюдента сk=n– 2 степенями свободы.

Уравнение парной регрессии или коэффициент регрессии b1значимы на уровне(иначе – гипотезаН0о равенстве параметраb1нулю, т.е.Н0:b1= 0, отвергается), если фактически наблюдаемое значение статистики

(20)

больше критического (по абсолютной величине), т.е. |t| >t1 ; n 2.

Коэффициент корреляции rзначим на уровне(Н0:r= 0), если

. (21)

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле:

. (22)

Величина R2показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R2=r2.