- •Учреждение образования «высший государственный колледж связи»
- •Конспект лекций
- •Литература
- •Часть первая экономико-математические методы и модели Тема 1. Метод математического моделирования в экономике
- •Тема 2. Модель межотраслевого баланса
- •Тема 3. Задачи многокритериальной оптимизации
- •Тема 4. Элементы теории матричных игр
- •4.1 Парные матричные игры с нулевой суммой
- •4.2 Статистические игры. Критерии для принятия решений
- •Тема 5. Сетевые методы планирования и управления.
- •5.1 Общие понятия моделей спу
- •5.2 Правила построения сетевых графиков
- •Тема 6. Сетевые модели задач динамического программирования. Нахождение кратчайшего маршрута.
- •6.1 Основные понятия сетевых моделей
- •6.2 Матричный способ задания сетей
- •6.3 Задача о кратчайшем пути
- •Часть вторая эконометрика Тема 7. Предмет эконометрики
- •Тема 8. Корреляционный метод анализа связей. Модели парной регрессии
- •Тема 9. Корреляционный метод анализа связей. Модели множественной регрессии
- •Тема 10. Модели временных рядов
- •Содержание
Тема 8. Корреляционный метод анализа связей. Модели парной регрессии
Корреляционный метод имеет две основные задачи:
1) обнаружить зависимость между факторным и результативным признаками и описать её форму с помощью уравнения регрессии;
2) установить меру тесноты связи между признаками (в какой мере вариация х обуславливает вариацию у).
Приступая к изучению корреляционной зависимости следует помнить о том, что, прежде всего, необходимо провести предварительный теоретический анализ. Он должен ответить на вопрос о том, существует ли такая связь вообще. Из истории статистики известно, что несоблюдение этого правила не раз приводило исследователей к курьезным результатам.
Предварительный теоретический анализ позволяет во многих случаях подсказать и форму связи (прямолинейная или более сложная), установить, является ли связь прямой пли обратной.
Сказанное выше означает, что каждый, кто прибегает к использованию метода корреляции, должен хорошо владеть не только данным методом, но и знанием предмета своего исследования.
Корреляционную связь, в которой есть только один признак-фактор и один признак-результат, именуют парной. Уравнение, выражающее такую связь, представляют какой-либо математической формулой прямой или кривых линий (гипербола, парабола и др.).
Для нахождения формы связи и описания ее в виде уравнения линии используют:
— группировку статистических данных;
— построение графика эмпирической линии.
Если точек очень много, то рассматривают не линию, а облако точек на графике корреляционного поля. В реальной практике не всегда удается достаточно уверенно по эмпирической линии установить форму линии связи. В этих случаях принимают несколько вариантов формы связи, по каждому из них делают расчеты и в конце дают оценку вариантов с помощью показателя тесноты связи. Вариант, в котором теснота связи оказалась наиболее высокой, принимается за наиболее верный.
Если форма связи выражается прямой линией, то уравнение регрессии имеет вид:
,
где - теоретическое значение,
и - параметры уравнения.
Параметр экономической интерпретации не имеет. Параметр называется коэффициентом регрессии, который показывает насколько изменится результативный признак () при изменении признака-фактора (x) на одну единицу.
Параметры уравнения и найдем из решения системы двух нормальных уравнений:
Уравнение регрессии можно использовать для прогнозирования, если связь между факторным и результативным признаками достаточно тесная.
В случае прямолинейной формы связи теснота может быть измерена линейным коэффициентом корреляции по формуле:
.
Коэффициент корреляции может находится в пределах от 0 (связь отсутствует) до (связь полная). Знак «+» указывает на прямую, а знак «-» на обратную связь.
Существуют способы оценки тесноты связи. В частности, по таблице Чэддока тесноту связи определяют:
Значение коэффициента (по модулю) |
Теснота связи |
0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 |
слабая умеренная заметная высокая весьма высокая |
В упрощенном виде считают, что если коэффициент (по модулю) составляет от 0,1 до 0,3 – связь слабая, от 0,3 до 0,7 – средняя, от 0,7 и выше – тесная.
Уравнение линейной регрессии также можно найти по формуле (II способ):
,
где – линейный коэффициент корреляции;
, ,,,,
, .
Оценить тесноту связи можно также с помощью корреляционного отношения, которое вычисляется по формуле:
,
где - индивидуальные значения результативного признака,
- теоретические значения результативного признака, которые находятся по уравнению регрессии,
- среднее значение результативного признака.
При этом абсолютная величина коэффициента корреляции равна корреляционному отношению.
Для оценки степени соответствия модели фактическим данным служит коэффициент детерминации
.
Коэффициент детерминации показывает, какую часть фактической вариации переменной y составляет вариация регрессии.
К простейшим показателям степени тесноты связи относят
а) коэффициент корреляции знаков Фехнера:
,
где - число совпадений знаков отклонений индивидуальных величин от средней величины;
- число несовпадений знаков отклонений индивидуальных величин от средней величины.
б) коэффициент корреляции рангов Кендалла:
.
Для расчета все единицы ранжируются по признакуx, по ряду другого признака y подсчитывается для каждого ранга число последующих рангов, превышающих данный (их сумму обозначим P) и число последующих рангов, ниже данного (их сумму обозначим Q).
в) коэффициент корреляции рангов Спирмена:
,
где - разность между рангами переменнойx и y.
Коэффициенты корреляции знаков Фехнера, рангов Кендалла, рангов Спирмена могут принимать значения от -1 до +1. Если эти коэффициенты больше нуля, то существует прямая корреляционная связь между исследуемыми признаками, а если меньше нуля, то обратная корреляционная связь. Чем ближе значения этих коэффициентов по модулю к единице, тем теснее связь между изучаемыми признаками. Причем значения, равные также свидетельствуют о корреляционной связи ( в отличие от линейного коэффициента корреляции).
Преимущество коэффициентов корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом и т.п.
Недостатком коэффициентов корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для количественных признаков следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближёнными мерами тесноты связи.
Значимость (надежность) вычисленного значения линейного коэффициента корреляции r определяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости линейного коэффициента корреляции) при конкурирующей гипотезе.
1. Наблюдаемое значение критерия находится по формуле:
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычноили(, где- доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу об отсутствии связи между показателямиx и y.
Если , то отклоняем нулевую гипотезу об отсутствии связи между показателямиx и y. Т.е. полученное значение r считается значимым и принимаем гипотезу о наличии статистической связи между показателями.
Значимость простой линейной регрессии проверяется с помощью F-критерия Фишера. Проверяется нулевая гипотеза при конкурирующей гипотезе.
1. Наблюдаемое значение критерия находится по формуле:
;
2. Критическую точку F-критерия Фишера определяем по соответствующей таблице
,
где - уровень значимости, обычноили(, где- доверительная вероятность),m – количество объясняющих переменных модели (для модели простой парной корреляции m=1);
m и n-m-1= n-2 – числа степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу об отсутствии линейной регрессии между показателямиx и y (необходимо строить нелинейную регрессию).
Если , то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о наличии линейной регрессии между показателями x и y.
Значимость коэффициента регрессии b проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости коэффициента регрессии) при конкурирующей гипотезе.
1. Наблюдаемое значение критерия находится по формуле:
,
где - среднеквадратическая (стандартная) ошибка параметра регрессииb, находится по формуле
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычноили(, где- доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии почти не отличается от нуля или равен нулю.
Если , то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.
Значимость параметра a проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза при конкурирующей гипотезе.
1. Наблюдаемое значение критерия находится по формуле:
,
где - среднеквадратическая (стандартная) ошибка параметра регрессииa, находится по формуле
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычноили(, где- доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу о незначимости параметраa, т.е. параметра a почти не отличается от нуля или равен нулю.
Если , то отклоняем нулевую гипотезу о незначимости параметраa, т.е. параметра a не равен нулю.
Доверительные интервалы параметров регрессии при уровне значимости определяются по формулам:
где
- среднеквадратическая ошибка параметра регрессииa,
- среднеквадратическая ошибка параметра регрессииb,
- табличное значение критерия Стьюдента при заданном уровне значимостии числе степеней свободы.
Доверительный интервал для прогнозного значения при уровне значимостиопределяется по формуле:
где
- точечный прогноз, находится по построенной модели линейной регрессии;
- средняя ошибка прогноза в точке , рассчитывается по формуле:
где - среднеквадратическая (стандартная) ошибка регрессии, рассчитывается по формуле:
Пример. Имеются данные об объемах реализованной продукции и балансовой прибылью предприятия по месяцам отчетного года (см. табл. 8.1).
Таблица 8.1
Месяц |
Объем реализованной продукции, млн. руб. |
Балансовая прибыль, млн. руб. |
Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь |
20 25 34 30 36 37 40 46 58 69 80 |
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
Необходимо:
1) построить модель линейной регрессии зависимости балансовой прибыли предприятия от объема реализованной продукции;
2) оценить тесноту связи между указанными признаками с помощью
а) линейного коэффициента корреляции,
б) коэффициента корреляции знаков Фехнера,
в) коэффициента корреляции рангов Кендалла,
г) коэффициента корреляции рангов Спирмена
и сделать соответствующие выводы;
3) определить значимость построенной модели с помощью коэффициента детерминации;
4) при уровне значимости проверить значимость
а) линейного коэффициента корреляции,
б) простой линейной регрессии,
в) параметров регрессии
и сделать соответствующие выводы;
5) дать точечный и интервальный (при уровне значимости ) прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб.
Решение.
1) Так как балансовая прибыль зависит от объема реализованной продукции, то в качестве факторного признака (x) будет выступать объем реализованной продукции, а в качестве результативного (y) – балансовая прибыль.
Уравнение линейной регрессии найдем по формуле:
,
Рассчитаем необходимые суммы в таблице 8.2.
Таблица 8.2
|
x |
y | |||
|
20 |
1,2 |
537,397 |
6,205 |
24 |
|
25 |
1,8 |
330,579 |
3,576 |
45 |
|
34 |
2 |
84,306 |
2,859 |
68 |
|
30 |
2,5 |
173,760 |
1,418 |
75 |
|
36 |
3 |
51,579 |
0,477 |
108 |
|
37 |
3,2 |
38,215 |
0,241 |
118,4 |
|
40 |
3,5 |
10,124 |
0,036 |
140 |
|
46 |
4,9 |
7,942 |
1,462 |
225,4 |
|
58 |
5 |
219,579 |
1,714 |
290 |
|
69 |
6,2 |
666,579 |
6,296 |
427,8 |
|
80 |
7,3 |
1355,579 |
13,026 |
584 |
Итого: |
475 |
40,6 |
3475,636 |
37,309 |
2105,6 |
Тогда (млн. руб.);
(млн. руб.);
;
; (млн. руб.);
; (млн. руб.);
;
Уравнение линейной регрессии имеет вид:
или .
2а) Линейный коэффициент корреляции между переменными x и y равен , что свидетельствует о прямой весьма высокой связи между этими признаками, т.е. между объемом реализованной продукции и балансовой прибылью предприятия.
2б) Найдем коэффициент корреляции знаков Фехнера.
В таблице 8.3 запишем знаки отклонений индивидуальных величин от средней.
Таблица 8.3
x |
y |
Знак |
Знак |
«с» - совпадение знаков «н» - несовпадение знаков |
20 25 34 30 36 37 40 46 58 69 80 |
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
─ ─ ─ ─ ─ ─ ─ + + + + |
─ ─ ─ ─ ─ ─ ─ + + + + |
с с с с с с с с с с с |
Итак, число совпадений знаков отклонений и число несовпадений знаков отклонений. Тогда. Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.
2в) Найдем коэффициент корреляции рангов Кендалла.
В таблице 8.4 запишем ранги переменных x и y.
Таблица 8.4
x |
y |
Ранг x |
Ранг y |
20 25 34 30 36 37 40 46 58 69 80 |
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
1 2 4 3 5 6 7 8 9 10 11 |
1 2 3 4 5 6 7 8 9 10 11 |
Упорядочим все единицы по признаку x (см. табл. 8.5)
Таблица 8.5
x |
y |
Ранг x |
Ранг y |
20 25 30 34 36 37 40 46 58 69 80 |
1,2 1,8 2,5 2,0 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
1 2 3 4 5 6 7 8 9 10 11 |
1 2 4 3 5 6 7 8 9 10 11 |
По признаку y подсчитаем суммы P и Q:
P=10+9+7+7+6+5+4+3+2+1+0=54, Q=0+0+1+0+0+0+0+0+0+0+0=1.
Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.
2г) Найдем коэффициент корреляции рангов Спирмена.
Рассчитаем в таблице квадраты разностей между рангами переменных x и y (см. табл. 8.6).
Таблица 8.6
x |
y |
Ранг x |
Ранг y |
(Ранг x– Ранг y) |
20 25 30 34 36 37 40 46 58 69 80 |
1,2 1,8 2,5 2,0 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
1 2 3 4 5 6 7 8 9 10 11 |
1 2 4 3 5 6 7 8 9 10 11 |
0 0 1 1 0 0 0 0 0 0 0 |
|
|
|
Итого: |
2 |
Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.
3) Коэффициент детерминации найдем по формуле:
,
необходимые суммы рассчитаны в таблицах 8.7 и 8.2.
Таблица 8.7
| ||||
|
1,340 |
5,525 |
400 |
0,020 |
|
1,847 |
3,399 |
625 |
0,002 |
|
2,354 |
1,786 |
900 |
0,021 |
|
2,760 |
0,867 |
1156 |
0,577 |
|
2,963 |
0,530 |
1296 |
0,001 |
|
3,064 |
0,393 |
1369 |
0,018 |
|
3,368 |
0,104 |
1600 |
0,017 |
|
3,977 |
0,082 |
2116 |
0,853 |
|
5,193 |
2,258 |
3364 |
0,037 |
|
6,309 |
6,853 |
4761 |
0,012 |
|
7,424 |
13,937 |
6400 |
0,015 |
Итого: |
40,6 |
35,734 |
23987 |
1,575 |
следовательно, модель объясняет зависимость между переменными на 95,78 %.
4а) При уровне значимости проверим гипотезу о значимости линейного коэффициента корреляции.
,
.
1. Наблюдаемое значение критерия
.
2. Критическая точка .
3. Т.к. (14,2895>2,26), то отклоняем нулевую гипотезу об отсутствии связи между показателямиx и y. Т.е. полученное значение r считается значимым, и принимаем гипотезу о наличии статистической связи между показателями.
4б) При уровне значимости проверим гипотезу о значимости простой линейной регрессии.
,
.
1. Наблюдаемое значение критерия
.
2. Критическая точка .
3. Т.к. (204,1897>5,12), то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о значимости линейной регрессии между показателями x и y.
4в) При уровне значимости проверим гипотезы о значимости параметров регрессии.
Для коэффициента регрессии b:
,
.
1. Наблюдаемое значение критерия
,
где (необходимые суммы найдены в таблицах 8.2 и 8.7);
2. Критическая точка .
3. Т.к. (14,2895>2,26), то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.
Для параметра a:
,
.
1. Наблюдаемое значение критерия
,
где (необходимые суммы найдены в таблицах 8.2 и 8.7);
2. Критическая точка .
3. Т.к. (|-2,075|<2,26), то принимаем нулевую гипотезу о незначимости параметраa, т.е. параметра a почти не отличается от нуля или равен нулю, и он может не использоваться в модели. Однако наличие свободного члена в линейном уравнении может лишь уточнить вид зависимости. Поэтому, если нет серьезных причин для удаления свободного члена из уравнения регрессии, то лучше его использовать в модели.
5) Точечный прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб. найдем по построенной модели:
(млн. руб.)
Доверительный интервал для прогнозного значения млн. руб. будет иметь вид:
где
,
стандартная ошибка регрессии .
Т.к. , то доверительный интервал будет иметь вид:
или .
Таким образом, при уровне значимости при объеме реализации, равном 75 млн. руб. балансовая прибыль предприятия ожидается в пределах от 5,8057 млн. руб. до 8,0287 млн. руб.
Если связь между признаками выражается какой-либо кривой линией, то нужно применить соответствующую формулу для расчета уравнения регрессии. Так, например, при связи, выраженной в форме гиперболы, уравнение регрессии имеет вид:
,
Параметры уравнения инаходятся из решения системы уравнений:
Если уравнение регрессии имеет форму параболы второго порядка, то его уравнение будет: .
Параметры уравнения ,инаходятся из решения системы уравнений:
Показателем тесноты криволинейной корреляции является корреляционное отношение, которое вычисляется по выше приведенной формуле.