Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ekonometrika_EMMM_konspekt_leksii.doc
Скачиваний:
150
Добавлен:
13.02.2016
Размер:
2.92 Mб
Скачать

Тема 8. Корреляционный метод анализа связей. Модели парной регрессии

Корреляционный метод имеет две основные задачи:

1) обнаружить зависимость между факторным и результативным признаками и описать её форму с помощью уравнения регрессии;

2) установить меру тесноты связи между признаками (в какой мере вариация х обуславливает вариацию у).

Приступая к изучению корреляционной зависимости следует помнить о том, что, прежде всего, необходимо провести предварительный теоретический анализ. Он должен ответить на вопрос о том, существует ли такая связь вообще. Из истории статистики известно, что несоблюдение этого правила не раз приводило исследователей к курьезным результатам.

Предварительный теоретический анализ позволяет во многих случаях подсказать и форму связи (прямолинейная или более сложная), установить, является ли связь прямой пли обратной.

Сказанное выше означает, что каждый, кто прибегает к использованию метода корреляции, должен хорошо владеть не только данным методом, но и знанием предмета своего исследования.

Корреляционную связь, в которой есть только один признак-фактор и один признак-результат, именуют парной. Уравнение, выражающее такую связь, представляют какой-либо математической формулой прямой или кривых линий (гипербола, парабола и др.).

Для нахождения формы связи и описания ее в виде уравнения линии используют:

группировку статистических данных;

построение графика эмпирической линии.

Если точек очень много, то рассматривают не линию, а облако точек на графике корреляционного поля. В реальной практике не всегда удается достаточно уверенно по эмпирической линии установить форму линии связи. В этих случаях принимают несколько вариантов формы связи, по каждому из них делают расчеты и в конце дают оценку вариантов с помощью показателя тесноты связи. Вариант, в котором теснота связи оказалась наиболее высокой, принимается за наиболее верный.

Если форма связи выражается прямой линией, то уравнение регрессии имеет вид:

,

где - теоретическое значение,

и - параметры уравнения.

Параметр экономической интерпретации не имеет. Параметр называется коэффициентом регрессии, который показывает насколько изменится результативный признак () при изменении признака-фактора (x) на одну единицу.

Параметры уравнения и найдем из решения системы двух нормальных уравнений:

Уравнение регрессии можно использовать для прогнозирования, если связь между факторным и результативным признаками достаточно тесная.

В случае прямолинейной формы связи теснота может быть измерена линейным коэффициентом корреляции по формуле:

.

Коэффициент корреляции может находится в пределах от 0 (связь отсутствует) до (связь полная). Знак «+» указывает на прямую, а знак «-» на обратную связь.

Существуют способы оценки тесноты связи. В частности, по таблице Чэддока тесноту связи определяют:

Значение коэффициента

(по модулю)

Теснота связи

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

слабая

умеренная

заметная

высокая

весьма высокая

В упрощенном виде считают, что если коэффициент (по модулю) составляет от 0,1 до 0,3 – связь слабая, от 0,3 до 0,7 – средняя, от 0,7 и выше – тесная.

Уравнение линейной регрессии также можно найти по формуле (II способ):

,

где – линейный коэффициент корреляции;

, ,,,,

, .

Оценить тесноту связи можно также с помощью корреляционного отношения, которое вычисляется по формуле:

,

где - индивидуальные значения результативного признака,

- теоретические значения результативного признака, которые находятся по уравнению регрессии,

- среднее значение результативного признака.

При этом абсолютная величина коэффициента корреляции равна корреляционному отношению.

Для оценки степени соответствия модели фактическим данным служит коэффициент детерминации

.

Коэффициент детерминации показывает, какую часть фактической вариации переменной y составляет вариация регрессии.

К простейшим показателям степени тесноты связи относят

а) коэффициент корреляции знаков Фехнера:

,

где - число совпадений знаков отклонений индивидуальных величин от средней величины;

- число несовпадений знаков отклонений индивидуальных величин от средней величины.

б) коэффициент корреляции рангов Кендалла:

.

Для расчета все единицы ранжируются по признакуx, по ряду другого признака y подсчитывается для каждого ранга число последующих рангов, превышающих данный (их сумму обозначим P) и число последующих рангов, ниже данного (их сумму обозначим Q).

в) коэффициент корреляции рангов Спирмена:

,

где - разность между рангами переменнойx и y.

Коэффициенты корреляции знаков Фехнера, рангов Кендалла, рангов Спирмена могут принимать значения от -1 до +1. Если эти коэффициенты больше нуля, то существует прямая корреляционная связь между исследуемыми признаками, а если меньше нуля, то обратная корреляционная связь. Чем ближе значения этих коэффициентов по модулю к единице, тем теснее связь между изучаемыми признаками. Причем значения, равные также свидетельствуют о корреляционной связи ( в отличие от линейного коэффициента корреляции).

Преимущество коэффициентов корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом и т.п.

Недостатком коэффициентов корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для количественных признаков следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближёнными мерами тесноты связи.

Значимость (надежность) вычисленного значения линейного коэффициента корреляции r определяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости линейного коэффициента корреляции) при конкурирующей гипотезе.

1. Наблюдаемое значение критерия находится по формуле:

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

,

где - уровень значимости, обычноили(, где- доверительная вероятность);

n-2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу об отсутствии связи между показателямиx и y.

Если , то отклоняем нулевую гипотезу об отсутствии связи между показателямиx и y. Т.е. полученное значение r считается значимым и принимаем гипотезу о наличии статистической связи между показателями.

Значимость простой линейной регрессии проверяется с помощью F-критерия Фишера. Проверяется нулевая гипотеза при конкурирующей гипотезе.

1. Наблюдаемое значение критерия находится по формуле:

;

2. Критическую точку F-критерия Фишера определяем по соответствующей таблице

,

где - уровень значимости, обычноили(, где- доверительная вероятность),m – количество объясняющих переменных модели (для модели простой парной корреляции m=1);

m и n-m-1= n-2 – числа степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу об отсутствии линейной регрессии между показателямиx и y (необходимо строить нелинейную регрессию).

Если , то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о наличии линейной регрессии между показателями x и y.

Значимость коэффициента регрессии b проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости коэффициента регрессии) при конкурирующей гипотезе.

1. Наблюдаемое значение критерия находится по формуле:

,

где - среднеквадратическая (стандартная) ошибка параметра регрессииb, находится по формуле

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

,

где - уровень значимости, обычноили(, где- доверительная вероятность);

n-2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии почти не отличается от нуля или равен нулю.

Если , то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.

Значимость параметра a проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза при конкурирующей гипотезе.

1. Наблюдаемое значение критерия находится по формуле:

,

где - среднеквадратическая (стандартная) ошибка параметра регрессииa, находится по формуле

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

,

где - уровень значимости, обычноили(, где- доверительная вероятность);

n-2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу о незначимости параметраa, т.е. параметра a почти не отличается от нуля или равен нулю.

Если , то отклоняем нулевую гипотезу о незначимости параметраa, т.е. параметра a не равен нулю.

Доверительные интервалы параметров регрессии при уровне значимости определяются по формулам:

где

- среднеквадратическая ошибка параметра регрессииa,

- среднеквадратическая ошибка параметра регрессииb,

- табличное значение критерия Стьюдента при заданном уровне значимостии числе степеней свободы.

Доверительный интервал для прогнозного значения при уровне значимостиопределяется по формуле:

где

- точечный прогноз, находится по построенной модели линейной регрессии;

- средняя ошибка прогноза в точке , рассчитывается по формуле:

где - среднеквадратическая (стандартная) ошибка регрессии, рассчитывается по формуле:

Пример. Имеются данные об объемах реализованной продукции и балансовой прибылью предприятия по месяцам отчетного года (см. табл. 8.1).

Таблица 8.1

Месяц

Объем реализованной продукции, млн. руб.

Балансовая прибыль, млн. руб.

Январь

Февраль

Март

Апрель

Май

Июнь

Июль

Август

Сентябрь

Октябрь

Ноябрь

20

25

34

30

36

37

40

46

58

69

80

1,2

1,8

2,0

2,5

3,0

3,2

3,5

4,9

5,0

6,2

7,3

Необходимо:

1) построить модель линейной регрессии зависимости балансовой прибыли предприятия от объема реализованной продукции;

2) оценить тесноту связи между указанными признаками с помощью

а) линейного коэффициента корреляции,

б) коэффициента корреляции знаков Фехнера,

в) коэффициента корреляции рангов Кендалла,

г) коэффициента корреляции рангов Спирмена

и сделать соответствующие выводы;

3) определить значимость построенной модели с помощью коэффициента детерминации;

4) при уровне значимости проверить значимость

а) линейного коэффициента корреляции,

б) простой линейной регрессии,

в) параметров регрессии

и сделать соответствующие выводы;

5) дать точечный и интервальный (при уровне значимости ) прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб.

Решение.

1) Так как балансовая прибыль зависит от объема реализованной продукции, то в качестве факторного признака (x) будет выступать объем реализованной продукции, а в качестве результативного (y) – балансовая прибыль.

Уравнение линейной регрессии найдем по формуле:

,

Рассчитаем необходимые суммы в таблице 8.2.

Таблица 8.2

x

y

20

1,2

537,397

6,205

24

25

1,8

330,579

3,576

45

34

2

84,306

2,859

68

30

2,5

173,760

1,418

75

36

3

51,579

0,477

108

37

3,2

38,215

0,241

118,4

40

3,5

10,124

0,036

140

46

4,9

7,942

1,462

225,4

58

5

219,579

1,714

290

69

6,2

666,579

6,296

427,8

80

7,3

1355,579

13,026

584

Итого:

475

40,6

3475,636

37,309

2105,6

Тогда (млн. руб.);

(млн. руб.);

;

; (млн. руб.);

; (млн. руб.);

;

Уравнение линейной регрессии имеет вид:

или .

2а) Линейный коэффициент корреляции между переменными x и y равен , что свидетельствует о прямой весьма высокой связи между этими признаками, т.е. между объемом реализованной продукции и балансовой прибылью предприятия.

2б) Найдем коэффициент корреляции знаков Фехнера.

В таблице 8.3 запишем знаки отклонений индивидуальных величин от средней.

Таблица 8.3

x

y

Знак

Знак

«с» - совпадение знаков

«н» - несовпадение знаков

20

25

34

30

36

37

40

46

58

69

80

1,2

1,8

2,0

2,5

3,0

3,2

3,5

4,9

5,0

6,2

7,3

+

+

+

+

+

+

+

+

с

с

с

с

с

с

с

с

с

с

с

Итак, число совпадений знаков отклонений и число несовпадений знаков отклонений. Тогда. Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.

2в) Найдем коэффициент корреляции рангов Кендалла.

В таблице 8.4 запишем ранги переменных x и y.

Таблица 8.4

x

y

Ранг x

Ранг y

20

25

34

30

36

37

40

46

58

69

80

1,2

1,8

2,0

2,5

3,0

3,2

3,5

4,9

5,0

6,2

7,3

1

2

4

3

5

6

7

8

9

10

11

1

2

3

4

5

6

7

8

9

10

11

Упорядочим все единицы по признаку x (см. табл. 8.5)

Таблица 8.5

x

y

Ранг x

Ранг y

20

25

30

34

36

37

40

46

58

69

80

1,2

1,8

2,5

2,0

3,0

3,2

3,5

4,9

5,0

6,2

7,3

1

2

3

4

5

6

7

8

9

10

11

1

2

4

3

5

6

7

8

9

10

11

По признаку y подсчитаем суммы P и Q:

P=10+9+7+7+6+5+4+3+2+1+0=54, Q=0+0+1+0+0+0+0+0+0+0+0=1.

Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.

2г) Найдем коэффициент корреляции рангов Спирмена.

Рассчитаем в таблице квадраты разностей между рангами переменных x и y (см. табл. 8.6).

Таблица 8.6

x

y

Ранг x

Ранг y

(Ранг x– Ранг y)

20

25

30

34

36

37

40

46

58

69

80

1,2

1,8

2,5

2,0

3,0

3,2

3,5

4,9

5,0

6,2

7,3

1

2

3

4

5

6

7

8

9

10

11

1

2

4

3

5

6

7

8

9

10

11

0

0

1

1

0

0

0

0

0

0

0

Итого:

2

Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.

3) Коэффициент детерминации найдем по формуле:

,

необходимые суммы рассчитаны в таблицах 8.7 и 8.2.

Таблица 8.7

1,340

5,525

400

0,020

1,847

3,399

625

0,002

2,354

1,786

900

0,021

2,760

0,867

1156

0,577

2,963

0,530

1296

0,001

3,064

0,393

1369

0,018

3,368

0,104

1600

0,017

3,977

0,082

2116

0,853

5,193

2,258

3364

0,037

6,309

6,853

4761

0,012

7,424

13,937

6400

0,015

Итого:

40,6

35,734

23987

1,575

следовательно, модель объясняет зависимость между переменными на 95,78 %.

4а) При уровне значимости проверим гипотезу о значимости линейного коэффициента корреляции.

,

.

1. Наблюдаемое значение критерия

.

2. Критическая точка .

3. Т.к. (14,2895>2,26), то отклоняем нулевую гипотезу об отсутствии связи между показателямиx и y. Т.е. полученное значение r считается значимым, и принимаем гипотезу о наличии статистической связи между показателями.

4б) При уровне значимости проверим гипотезу о значимости простой линейной регрессии.

,

.

1. Наблюдаемое значение критерия

.

2. Критическая точка .

3. Т.к. (204,1897>5,12), то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о значимости линейной регрессии между показателями x и y.

4в) При уровне значимости проверим гипотезы о значимости параметров регрессии.

Для коэффициента регрессии b:

,

.

1. Наблюдаемое значение критерия

,

где (необходимые суммы найдены в таблицах 8.2 и 8.7);

2. Критическая точка .

3. Т.к. (14,2895>2,26), то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.

Для параметра a:

,

.

1. Наблюдаемое значение критерия

,

где (необходимые суммы найдены в таблицах 8.2 и 8.7);

2. Критическая точка .

3. Т.к. (|-2,075|<2,26), то принимаем нулевую гипотезу о незначимости параметраa, т.е. параметра a почти не отличается от нуля или равен нулю, и он может не использоваться в модели. Однако наличие свободного члена в линейном уравнении может лишь уточнить вид зависимости. Поэтому, если нет серьезных причин для удаления свободного члена из уравнения регрессии, то лучше его использовать в модели.

5) Точечный прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб. найдем по построенной модели:

(млн. руб.)

Доверительный интервал для прогнозного значения млн. руб. будет иметь вид:

где

,

стандартная ошибка регрессии .

Т.к. , то доверительный интервал будет иметь вид:

или .

Таким образом, при уровне значимости при объеме реализации, равном 75 млн. руб. балансовая прибыль предприятия ожидается в пределах от 5,8057 млн. руб. до 8,0287 млн. руб.

Если связь между признаками выражается какой-либо кривой линией, то нужно применить соответствующую формулу для расчета уравнения регрессии. Так, например, при связи, выраженной в форме гиперболы, уравнение регрессии имеет вид:

,

Параметры уравнения инаходятся из решения системы уравнений:

Если уравнение регрессии имеет форму параболы второго порядка, то его уравнение будет: .

Параметры уравнения ,инаходятся из решения системы уравнений:

Показателем тесноты криволинейной корреляции является корреляционное отношение, которое вычисляется по выше приведенной формуле.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]