Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эконометрика, лекции

.pdf
Скачиваний:
64
Добавлен:
01.06.2015
Размер:
1.34 Mб
Скачать

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

Область принятия гипотезы

Критическая область

( ; k

 

) (k

; ) называ-

 

 

 

1 2

 

2

ется двусторонней критической областью. Она опре-

деляется в случае, когда альтернативная гипотеза имеет вид: Н1 : 0 .

Кроме двусторонней, рассматривают также односторонние критические области -

правостороннюю и левостороннюю.

Правосторонней называют

критическую об-

 

Область принятия

 

 

 

P(K k )

ласть (k ; ) ,

определяемую

из

соотношения

 

гипотезы

 

P(K k ) . Она используется в случае, когда альтер-

 

 

 

 

нативная гипотеза имеет вид: Н1 : 0 .

0

k k

 

 

 

 

 

 

Левосторонней называют

критическую область

 

 

 

 

 

 

( ; k1 ) ,

определяемую

из

соотношения

 

 

 

P(K k1 ) .

Она используется в случае, когда аль-

 

 

 

 

 

 

 

 

тернативная гипотеза имеет вид: Н1 : 0 .

Общая схема проверки гипотез:

1. Формулировка проверяемой (нулевой - Но) и альтернативной 1) гипотез. 2.Выбор соответствующего уровня значимости α.

3.Определение объема выборки п.

4.Выбор критерия К для проверки Н0.

5.Определение критической области и области принятия гипотезы.

6.Вычисление наблюдаемого значения критерия Кнабл.

7. Принятие статистического решения.

Тема 3. Соотношения между экономическими переменными. Линейная связь. Корреляция

Различные экономические явления как на микро-, так и на макроуровне не являются независимыми, а связаны между собой (цена товара и спрос на него, объём производства и прибыль фирмы и.т.д.).

Эта зависимость может быть строго функциональной (детермированной) и статистической. Зависимость между Y и X называется функциональной, когда каждому значению одно-

го признака соответствует одно единственное значение другого признака. (Примером такой однозначной зависимости может служить зависимость площади круга от радиуса).

Вреальной действительности чаще встречается иная связь между явлениями, когда каждому значению одного признака могут соответствовать несколько значений другого (например, связь между возрастом детей и их ростом).

Форма связи, при которой один или несколько взаимосвязанных показателей (факторов) оказывают влияние на другой показатель (результат) не однозначно, а с определенной долей вероятности, называется статистической. В частности, если при изменении одной из величин изменяется среднее значение другой, то в этом случае статистическую зависимость называют

корреляционной.

Взависимости от числа факторов, включаемых в модель, различают парную корреля-

21

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

цию (связь двух переменных) и множественную (зависимость результата от нескольких факторов).

Корреляционный анализ состоит в определении направления, формы и степени связи (тесноты) между двумя (несколькими) случайными признаками X и Y .

По направлению корреляция бывает положительной (прямой), если при увеличении значений одной переменной увеличивается значение другой, и отрицательной (обратной), если при увеличении значений одной переменной, уменьшается значение другой.

По форме корреляционная связь может быть линейной (прямолинейной), когда изменение значений одного признака приводит к равномерному изменению другого (математически описывается уравнением прямой Y a bX ), и криволинейной, когда изменение значений одного признака приводит к неодинаковым изменениям другого (математически она описывается

уравнениями кривых линий, например гиперболы Y a b , параболы Y a bx cx2 и т.д.). x

Простейшей формой зависимости между переменными является линейная зависимость. И проверка наличия такой зависимости, оценивание её индикаторов и параметров является одним из важнейших направлений эконометрики.

Существуют специальные статистические методы и, соответственно, показатели, значения которых определённым образом свидетельствуют о наличии или отсутствии линейной связи между переменными.

3.1. Коэффициент линейной корреляции

Наиболее простым, приближенным способом выявления корреляционной связи является

графический.

При небольшом объеме выборки экспериментальные данные представляют в виде двух рядов связанных между собой значений xi и уi . Если каждую пару xi ; yi представить точкой на плоскости xОу , то получится так называемое корреляционное поле (рис.1).

Если корреляционное поле представляет собой эллипс, ось которого расположена слева направо и снизу вверх (рис.1в), то можно полагать, что между признаками существует линейная положительная связь.

Если корреляционное поле вытянуто вдоль оси слева направо и сверху вниз (рис.1г), то можно полагать наличие линейной отрицательной связи.

В случае же если точки наблюдений располагаются на плоскости хаотично, т.е корреляционное поле образует круг (рис.1а), то это свидетельствует об отсутствии связи между признаками.

На рис.1б представлена строгая линейная функциональная связь.

Под теснотой связи между двумя величинами понимают степень сопряженности между ними, которая обнаруживается с изменением изучаемых величин. Если каждому заданному значению X соответствуют близкие друг другу значения Y , то связь считается тесной (сильной); если же значения Y сильно разбросаны, то связь считается менее тесной. При тесной корреляционной связи корреляционное поле представляет собой более или менее сжатый эллипс.

Количественным критерием направления и тесноты линейной связи является коэффици-

ент линейной корреляции.

Коэффициент корреляции, определяемый по выборочным данным, называется выбороч-

ным коэффициентом корреляции. Он вычисляется по формуле:

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

x

yi

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r r

 

x y x y

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x; y

 

n x y

 

 

 

 

 

x y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где xi , yi

текущие значения

признаков X и Y;

x

и

y

 

средние арифметические значения

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

признаков;

 

 

 

xi

yi

-

среднее

арифметическое

 

произведений

вариант,

 

x y

i 1

 

 

 

 

 

 

n

22

 

 

 

 

 

 

 

 

хi

 

х

2

 

 

 

 

 

 

2

 

x

х

2

 

 

х

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Generated by Foxit PDF Creator © Foxit Software

 

 

 

 

 

 

 

 

 

http://www.foxitsoftware.com For evaluation only.

и у

 

 

 

 

 

 

 

 

yi

y

2

средние квадратические отклонения

 

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

у

у

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

этих признаков; n объём выборки.

Отсутствие корреляции

Полная корреляция

y

y

r 1

r 0

 

r 1

x

 

 

x

а)

 

б)

Положительная корреляция

Отрицательная корреляция

y

y

 

r 0

 

r 0

x

 

x

в)

 

г)

 

 

Рис. 1

Для вычисления коэффициента корреляции достаточно принять предположение о линейной связи между случайными признаками. Тогда вычисленный коэффициент корреляции и будет мерой этой линейной связи.

Коэффициент линейной корреляции принимает значения от −1 в случае строгой линейной отрицательной связи, до +1 в случае строгой линейной положительной связи (т.е.1 r 1). Близость коэффициента корреляции к 0 свидетельствует об отсутствии линейной связи между признаками, но не об отсутствии связи между ними вообще.

Коэффициенту корреляции можно дать наглядную графическую интерпретацию.

Если r 1, то между признаками существует линейная функциональная зависимость вида Y a bX , что означает полную корреляцию признаков. При r 1, прямая имеет поло-

жительный наклон по отношению к оси Ox , при r 1 отрицательный (рис. 1б).

Если 1 r 1, точки (xi ; yi ) находятся в области ограниченной линией, напоминаю-

щей эллипс. Чем ближе коэффициент корреляции к 1, тем уже эллипс и тем теснее точки сосредоточены вблизи прямой линии. При r 0 говорят о положительной корреляции. В этом случае значения yi имеют тенденцию к возрастанию с увеличением xi (рис.1в). При r 0 го-

ворят об отрицательной корреляции; значения yi имеют тенденцию к уменьшению с ростом xi (рис.1г).

Если r 0 , то точки xi ; yi располагаются в области, ограниченной окружностью. Это

означает, что между случайными признаками X и Y отсутствует корреляция, и такие призна-

ки называются некоррелированными (рис.1а).

23

y

r=0

х

Рис.2

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

Также коэффициент линейной корреляции может быть близок (равен) нулю, когда между признаками есть связь, но она нелинейная (рис.2).

При оценке тесноты связи можно использовать следующую условную таблицу:

Теснота связи

 

Величина коэффициента корреляции при наличии

 

 

 

прямой связи (+)

 

 

 

обратной связи (−)

 

Связь отсутствует

 

r 0

 

 

 

r 0

 

Связь слабая

 

0 r 0,3

 

 

 

0,3 r 0

 

Связь умеренная

 

0,3 r 0,7

 

 

 

0,7 r 0,3

 

Связь сильная

 

0,7 r 1

 

 

 

1 r 0,7

 

Полная функциональная

 

r 1

 

 

 

r 1

 

Заметим, что в числителе

формулы для выборочного

коэффициента линейной корреляции

величин X и Yс тоит их показатель ковариации:

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

(xi

 

 

 

 

 

 

covn X ,Y

x

)(yi

y)2

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

Этот показатель, как и коэффициент корреляции характеризует степень линейной связи ве-

личин X и Y. Если он больше нуля, то связь между величинами положительная, если меньше нуля, то связь – отрицательная, равен нулю – линейная связь отсутствует.

В отличие от коэффициента корреляции показатель ковариации нормирован – он имеет размерность, и его величина зависит от единиц измерения X и Y. В статистическом анализе показатель ковариации обычно используется, как промежуточный элемент расчёта коэффициента линейной корреляции. Т.о. формула расчёта выборочного коэффициента корреляции приобретает вид:

cov X ,Y rn X ,Y n

X Y

3.2. Оценка значимости (достоверности) коэффициента корреляции

Следует отметить, что истинным показателем степени линейной связи переменных является теоретический коэффициент корреляции, который рассчитывается на основании данных всей генеральной совокупности (т.е. всех возможных значений показателей):

X ,Y

cov X ,Y

 

,

(Х ) (Y )

 

 

где cov X ,Y M (X M X )(Y M Y ) - теоретический показатель ковариции, кото-

рый вычисляется как математическое ожидание произведений отклонений СВ X и Y от их математических ожиданий.

Как правило, теоретический коэффициент корреляции мы рассчитать не можем. Однако из того, что выборочный коэффициент не равен нулю rn 0 не следует, что теоретический коэф-

фициент также 0 (т.е. показатели могут быть линейно независимыми). Т.о. по данным случайной выборки нельзя утверждать, что связь между показателями существует.

24

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

Выборочный коэффициент корреляции является оценкой теоретического коэффициента, т.к. он рассчитывается лишь для части значений переменных.

Всегда существует ошибка коэффициента корреляции. Эта ошибка - расхождение между коэффициентом корреляции выборки объемом n и коэффициентом корреляции для генеральной совокупности определяется формулами:

Sr

1 r 2

 

 

Sr

 

1 r

2

при n 100 .

 

 

при n 100 ;

и

 

 

 

n 2

 

 

 

 

n

 

 

 

 

 

 

 

 

 

Проверка значимости коэффициента линейной корреляции означает проверку того, насколько мы можем доверять выборочным данным.

С этой целью проверяется нулевая гипотеза (H0 : 0) о том, что значение коэффициента корреляции для генеральной совокупности равно нулю, т.е. в генеральной совокупности отсутствует корреляция. Альтернативной является гипотеза (H1 : 0).

Для проверки этой гипотезы рассчитывается t - статистика ( t -критерий) Стьюдента:

 

 

 

 

 

 

 

 

 

 

t

r

r

 

n 2

 

 

.

 

1 r 2

 

 

Sr

 

Которая имеет распределение Стьюдента

с n 2 степенями свободы1.

По таблицам распределения Стьюдента определяется критическое значение tкр ; .

Если рассчитанное значение критерия t tкр , то нуль-гипотеза отвергается, то есть вычис-

ленный коэффициент корреляции значимо отличается от нуля с вероятностью q 1 .

Если же t tкр , тогда нулевая гипотеза не может быть отвергнута. В этом случае не исклю-

чается, что истинное значение коэффициента корреляции равно нулю, т.е. связь показателей можно считать статистически незначимой.

Пример 1. В таблице приведены данные за 8 лет о совокупном доходе x и расходах на конечное потребление y .

x

10

12

11

12

14

15

17

20

y

7

8

8

10

11

12

14

16

Изучить и измерить тесноту взаимосвязи между заданными показателями.

Тема 4. Парная линейная регрессия. Метод наименьших квадратов

Коэффициент корреляции указывает на степень тесноты взаимосвязи между двумя признаками, но он не дает ответа на вопрос, как изменение одного признака на одну единицу его размерности влияет на изменение другого признака. Для того чтобы ответить на этот вопрос, пользуются методами регрессионного анализа.

Регрессионный анализ устанавливает форму зависимости между случайной величиной

Yи значениями переменной величины Х , причем, значения Х считаются точно заданными. Уравнение регрессии – это формула статистической связи между переменными.

Если эта формула линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией (нескольких переменных – множест-

венной).

Выбор формулы зависимости называется спецификацией уравнения регрессии. Оценка значений параметров выбранной формулы называется параметризацией.

Как же оценить значения параметров и проверить надёжность сделанных оценок? Рассмотрим рисунок

1 Степень свободы равна числу переменных (объёму выборки), уменьшенному на число линейных связей между ними. Линейной связью, например, является формула расчёта выборочной средней. Т.к. в формулу коэффициента линейной корреляции входят два средних значения x и y , то объём выборки уменьшается именно на 2.

25

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

у

у

у

1 1

2

1

2

На графике (а) взаимосвязь х и у близка к линейной, прямая линия 1 здесь близка к точкам наблюдений и последние отклоняются от неё лишь в результате сравнительно небольших случайных воздействий.

На графике (б) реальная взаимосвязь величин х и у описывается нелинейной функцией 2,

икакую бы мы ни провели прямую линию (например, 1), отклонения точек от неё будут неслучайными.

На графике (в) взаимосвязь между переменными х и у отсутствует, и результаты параметризации любой формулы зависимости будут неудачными.

Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Всегда можно попытаться провести такую прямую линию, которая будет «ближайшей» к точкам наблюдений по их совокупности (например, на рисунке (в) лучшей будет прямая 1, чем прямая 2).

Теоретическое уравнение парной линейной регрессии имеет вид:

yi xi i ,

где , называются теоретическими параметрами (теоретическими коэффициентами)

регрессии; i - случайным отклонением (случайной ошибкой).

В общем виде теоретическую модель будем представлять в виде:

Y X .

Для определения значений теоретических коэффициентов регрессии необходимо знать все значения переменных Х и Y, т.е. всю генеральную совокупность, что практически невозможно.

Задача состоит в следующем: по имеющимся данным наблюдений xi , yi необходимо

оценить значения параметров , .

 

 

Пусть а оценка параметра , b оценка параметра .

 

 

Тогда оценённое уравнение регрессии имеет вид: yˆi а bxi

ei ,

где yˆi

 

 

 

 

теоретические значения зависимой переменной y, ei

- наблюдаемые значения

ошибок i .

Это уравнение называется эмпирическим уравнением регрессии. Будем его запи-

ˆ

сывать в виде Y а bX e .

В основе оценки параметров линейной регрессии лежит Метод Наименьших Квадратов (МНК) – это метод оценивания параметров линейной регрессии, минимизирующий сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции.

n

n

n

Q(a,b) ei2 yi yˆi 2 yi a bxi 2 min .

i 1

i 1

i 1

Функция Q является квадратичной функцией двух параметров a и b. Т.к. она непрерывна, выпукла и ограничена снизу ( Q 0 ), поэтому она достигает минимума. Необходимым условием существования минимума является равенство нулю её частных производных по a и b:

26

x, y , а коэффи-

 

 

 

 

 

 

 

Generated by Foxit PDF Creator © Foxit Software

 

 

 

 

 

 

 

http://www.foxitsoftware.com

For evaluation only.

 

 

n

 

 

 

 

 

 

n

n

 

Q 2

y

 

a bx

0

na b xi yi

 

 

i

 

 

a

 

i

 

 

 

i 1

i 1

.

 

i 1

 

 

 

 

 

 

 

n

 

 

 

xi

 

n

n

n

Qb 2 yi

a bxi

0

a xi

b xi2 xi yi

 

 

i 1

 

 

 

 

 

i 1

i 1

i 1

Разделив оба уравнения системы на n, получим:

a b

x

 

y

 

 

 

 

 

a

y

bx

 

 

 

 

 

a

y

bx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

x

 

y

или

x

)(yi

 

y

)

 

 

 

 

 

 

a

x

b x2 x y

 

 

b

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

 

(xi

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

(x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

cov(x, y)

r

y

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Иначе можно записать:

 

 

 

 

 

 

 

D(x)

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a y b x.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x и y средние квадратические отклонения значений тех же признаков.

Т.о. линия регрессии проходит через точку со средними значениями х и у

циент регрессии b пропорционален показателю ковариации и коэффициенту линейной корреляции.

Если кроме регрессии Y на X для тех же эмпирических значений найдено уравнение рег-

ˆ

 

b r

х

,

 

 

рессии X на Y ( Х

а bY , где

 

у

), то произведение коэффициентов bx ,by :

a х b у.

bx by r 2 .

y

x

 

ay

0

 

y

 

x

ax

 

 

 

а)

 

б)

 

Коэффициент регрессии bу это величина, показывающая, на сколько единиц размерно-

сти изменится величина y при изменении величины x на одну единицу ее размерности. Ана-

логично определяется коэффициент bх .

Как и коэффициент корреляции, коэффициент регрессии может принимать и положительные и отрицательные значения. Например, если коэффициент bу имеет знак " ", то это означа-

ет, что при увеличении значения признака x на единицу его размерности значение признака Y уменьшается на величину, равную bу .

Уравнения линейной регрессии являются уравнениями прямых линий в плоскости xOy , проходящих внутри соответствующего корреляционного поля. Такие линии называются ли-

ниями регрессии.

27

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

Для того, чтобы полученные МНК оценки обладали желательными свойствами, сделаем следующие предпосылки об отклонениях i :

1)величина i является случайной переменной;

2)математическое ожидание i равно нулю: М ( i ) 0 ;

3)

значения

i независимы между собой. Откуда вытекает, в частности, что

cov( i , j

0,

 

i j,

)

 

, i

j.

 

 

2

 

 

 

 

 

4)дисперсия i постоянна: D( i ) D( j ) 2 , i, j ;

5)ошибки i подчиняются нормальному распределению i ~ N (0, 2 ) (это условие не яв-

ляется обязательным, но оно необходимо для проверки статистической значимости найденных оценок и определения для них доверительных интервалов).

Если условия 1)-4) выполняются, то оценки, сделанные с помощью МНК, обладают следующими свойствами:

1.Оценки являются несмещёнными (т.е. математическое ожидание каждого параметра равно его истинному значению M (a) ,M (b) ).

2.Оценки состоятельны (дисперсия оценок параметров при возрастании числа наблюдений

стремится к нулю: lim D(a) 0;lim D(b) 0 ). Иначе говоря, надёжность оценки при возраста-

n n

нии выборки растёт. Если n велико, то почти наверняка a близко к , а b близко к .

3. Оценки эффективны, они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра, линейными относительно величин yi .

Пример 1.

По данным примера 1 оценить параметры уравнения линейной регрессии.

Тема 5. Оценка качества полученного уравнения (верификация)

Расчёт значений параметров уравнения регрессии – лишь первый шаг на пути решения проблемы количественного оценивания зависимости одной переменной от другой (других) переменных.

Следующим этапом решения этой проблемы является оценка качества построенного уравнения, вынесения суждения относительно его отдельных параметров и степени пригодности в целом.

Анализ качества оценённой зависимости включает статистическую и содержательную составляющие. Проверка статистического качества состоит из следующих элементов:

1.Проверка общего качества.

2.Проверка статистической значимости каждого коэффициента уравнения регрессии и всего уравнения в целом.

3.Проверка предпосылок, лежащих в основе МНК.

Под содержательной составляющей анализа качества понимается рассмотрение экономического смысла оценённого уравнения регрессии: действительно ли значимыми оказались объясняющие факторы, важные с точки зрения теории; положительны или отрицательны коэффициенты, показывающие направление действия этих факторов; попали ли оценки коэффициентов регрессии в предполагаемые из теоретических соображений интервалы.

5.1. Оценка общего качества уравнения регрессии

Для анализа общего качества полученного уравнения регрессии на количественном уровне используют коэффициент детерминации R2 . Он рассчитывается по формуле:

28

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

R2 1 ( yi yˆ)2 .

yi y 2

В числителе вычитаемой из единицы дроби стоит сумма квадратов отклонений (СКО) выборочных значений зависимой переменной от теоретических, найденных с помощью уравнения регрессии yˆi a bxi . В знаменателе – СКО наблюдений зависимой переменной от среднего значения.

Коэффициент детерминации характеризует долю вариации (разброса) зависимой переменной, объяснённой с помощью данного уравнения.

Замечание. В случае парной линейной регрессии коэффициент детерминации равен квадрату коэффициента линейной корреляции.

Более точным является значение коэффициента детерминации с поправкой на число степеней свободы.

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат от-

клонений, или дисперсию на одну степень свободы:

 

2

 

y

y

2

дисперсия, характеризующая общий разброс;

S y

n 1

 

 

 

 

S

2

 

y yˆ 2

остаточная дисперсия, где m – число независимых (объясняющих) пе-

 

 

 

 

n т 1

ременных, в случае парной регрессии m =1 и формула имеет вид: S 2 y yˆ 2 . n 2

Учитывая приведённые выше обозначения, формула коэффициента детерминации с поправкой на число степеней свободы будет иметь вид:

R2 1 S 2 .

Sy2

Значения коэффициента R2 изменяются от 0 до +1 (в редких случаях значение может быть и отрицательным числом).

Близость коэффициента детерминации к +1 свидетельствует о том, что существует статистически значимая линейная связь между переменными, а уравнение имеет хорошее качество.

Близость R2 к 0 говорит о том, что просто горизонтальная прямая у у является лучшей

по сравнению с найденной регрессионной прямой.

Самостоятельную важность коэффициент детерминации приобретает только в случае множественной регрессии.

5.2. Оценка существенности параметров линейной регрессии и всего уравнения в целом

После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Проверить значимость уравнения регрессии значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включённых в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости производится на основе дисперсионного анализа.

Согласно идее дисперсионного анализа, общая сумма квадратов отклонений (СКО) y от среднего значения y раскладывается на две части – объясненную и необъясненную:

y y 2 yˆ y 2 y yˆ 2

или, соответственно:

Объясненная

+

 

Необъясненная

29

(остаточная) СКО

(факторная) СКО

 

 

Generated by Foxit PDF Creator © Foxit Software

http://www.foxitsoftware.com For evaluation only.

(Общая СКО) =

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и уравнение должно иметь вид у у .

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Однако на практике в правой части присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы (df-degrees of freedom) – это число независимо варьируемых значений признака.

Для общей СКО требуется (n-1) независимых отклонений, dfобщ. n 1.

Факторная СКО имеет одну степень свободы, и dfфакт. 1.

 

dfобщ. dfфакт. dfостат.

Таким образом, можем записать:

n 1 1 n 2

Из этого баланса определяем, что

dfостат. = n–2.

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат от-

клонений, или дисперсию на одну степень свободы:

 

 

 

 

 

 

 

 

 

yˆ

 

 

2

 

 

 

 

 

y yˆ 2

 

2

 

y

y

2

- общая дисперсия,

S

2

 

 

y

 

- факторная,

S

2

 

- остаточная.

S y

 

 

 

 

факт

 

 

 

 

 

остаточ

 

 

n 1

1

 

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.2.1. Анализ статистической значимости коэффициентов линейной регрессии

Хотя теоретические значения коэффициентов , уравнения линейной зависимости Y X предполагаются постоянными величинами, оценки а и b этих коэффициентов, получаемые в ходе построения уравнения по данным случайной выборки, являются случайными величинами. Если ошибки регрессии имеют нормальное распределение, то оценки коэффициентов также распределены нормально и могут характеризоваться своими средними значениями и дисперсией. Поэтому анализ коэффициентов начинается с расчёта этих характеристик.

Дисперсии коэффициентов рассчитываются по формулам:

Дисперсия коэффициента регрессии b:

 

 

 

 

 

2

 

 

 

 

S 2

,

 

 

 

 

 

D(b) Sb

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

x

2

 

 

 

 

 

где S2 – остаточная дисперсия на одну

 

 

 

степень свободы.

 

 

 

 

 

Дисперсия параметра а :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

 

 

 

x2

x2

 

 

D(a) Sa

S

 

 

 

 

 

 

 

 

 

D(b)

n

 

Отсюда стандартная

 

n x

x

2

 

ошибка коэффициента регрессии b определяется по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

 

S 2

 

,

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

Sb

 

 

Sb

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

x

2

 

 

 

30