Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
kira_shpory.doc
Скачиваний:
177
Добавлен:
17.03.2015
Размер:
9.12 Mб
Скачать

43. Проверка линейной регрессии

В экономике причинно-следственные отношения между явлениями часто описываются с помощью линейных или линеаризуемых зависимостей. Разработаны статистические критерии, позволяющие либо подтвердить факт непротиворечивости линейной формы зависимости опытным данным, либо отвергнуть предложенный вид зависимости как не соответствующий этим данным. Для проверки линейности регрессии применяется следующий метод. Пусть каждому значению объясняющей переменной соответствует несколько значений зависимой переменной, по которым вычисляют частные средние ,и т.д. Обозначим черезчастное среднее, соответствующееj-му значению объясняющей переменной:

(8.71)

где — число значенийу, относящихся к(k = 1, ..., m);Найдем теперь средний квадрат отклонений значенийот их частных средних:

(8.72)

Показатель (8.72) является мерой рассеяния опытных данных около своих частных средних, т. е. мерой, не зависящей от выбранного вида регрессии. В качестве меры рассеяния опытных данных вокруг эмпирической регрессионной прямой выбирается средний квадрат отклонений:

(8.73)

Оба показателя ипредставляют собой независимые статистические оценки одной и той же дисперсии в. Еслинесущественно больше, то в качестве гипотетической зависимости может быть принята линейная.

Если в генеральной совокупности существует линейная регрессия и условные распределения переменной у хотя бы приблизительно нормальны, то отношение средних квадратов отклонений (8.72) и (8.73)

(8.74)

имеет F-распределение cf1=p-m-1 иf2= n - р степенями свободы. Значение F, подсчитанное по формуле (8.74), сравнивается с критическимFf1;f2, найденным по табл. 4 приложения при заданном уровне значимости α иf1,f2 степенях свободы. Если F ≤Ff1;f2, то разница между обоими средними квадратами отклонений статистически незначима и выбранная нами линейная регрессионная зависимость может быть принята как правдоподобная, не противоречащая опытным данным. Если F >Ff1;f2, то различие между обоими средними квадратами отклонений существенно, неслучайно, и гипотеза о линейной зависимости между переменными несостоятельна. Разработаны также другие критерии проверки гипотезы о линейности регрессии. Заинтересованный читатель может найти их в соответствующей литературе [122], [76].

44. Коэффициент детерминации при простой линейной регрессии.

Рассмотрим вначале коэффициент детерминации для простой линейной регрессии, называемый также коэффициентом парной детерминации.

На основе соображений, изложенных в разделе 1, теперь отно­сительно легко найти меру точности оценки регрессии. Было показано, что общую дисперсию можно разложить на две составляющие — на «необъясненную» дисперсиюи дисперсию, обусловленную регрес­сией. Чем большепо сравнению с, тем больше общая дисперсия формируется за счет влияния объясняющей переменнойx и, следова­тельно, связь между двумя переменнымиyиx более интенсивная. Очевидно, удобно в качестве показателя интенсивности связи, или оценки доли влияния переменнойxнаy, использовать отношение

(7)

Это отношение указывает, какая часть общего (полного) рассеяния значений уобусловлена изменчивостью переменнойx. Чем большую долю в общей дисперсии составляет, тем лучше выбранная функция регрессии соответствует эмпирическим данным. Чем меньше эмпири-ческие значения зависимой переменной отклоняются от прямой регрес-сии, тем лучше определена функция регрессии. Отсюда происходит и название отношения (7) — коэффициент детерминации. Индекс при коэффициенте указывает на переменные, связь между которыми изучается. При этом вначале в индексе стоит обозначение зависимой переменной, а затем объясняющей.

Из определения коэффициента детерминации как относительной доли очевидно, что он всегда заключен в пределах от 0 до 1:

(8)

сли , то все эмпирические значения(все точки поля корреляции) лежат на регрессионной прямой. Это означает, чтодляi=1, ..., n, т. е.. В этом случае говорят о строгом линейном соотношении (линейной функции) между переменнымиуих. Если, дисперсия, обусловленная регрессией, равна нулю, а «необъясненная» дисперсия равна общей дисперсии. В этом случае. Линия регрессии тогда параллельна оси абсцисс. Ни о какой численной линейной зависимости переменнойуотхв статистическом ее понимании не может быть и речи. Коэффициент регрессии при этом незначимо отличается от нуля.

Итак, чем больше приближается к единице, тем лучше опре-делена регрессия.

Коэффициент детерминации есть величина безразмерная и поэтому он не зависит от изменения единиц измерения переменных уиx(в отличие от параметров регрессии). Коэффициентне реагирует на преобразование переменных.

Приведем некоторые модификации формулы (7), которые, с одной стороны, будут способствовать пониманию сущности коэффициента де-терминации, а с другой стороны, окажутся полезными для практических вычислений. Подставляя выражение для () в (7) и принимая во внимание () и (2), получим:

(9)

Эта формула еще раз подтверждает, что «объясненная» дисперсия, стоящая в числителе (7), пропорциональна дисперсии переменной х, так какb1является оценкой параметра регрессии.

Подставив вместо его выражение () и учитывая определения дисперсийи, а также среднихи, получим формулу коэффициента детерминации, удобную для вычисления:

или

(10)

Из (10) следует, что всегда . С помощью (10) можно относительно легко определить коэффициент детерминации. В этой формуле содержатся только те величины, которые используются для вычисления оценок параметров регрессии и, следовательно, имеются в рабочей таблице. Формула (10) обладает тем преимуществом, что вычисление коэффициента детерминации по ней производится непосредственно по эмпирическим данным. Не нужно заранее находить оценки параметров и значения регрессии. Это обстоятельство играет немаловажную роль для последующих исследований, так как перед проведением регрессионного анализа мы можем проверить, в какой степени определена исследуемая регрессия включенными в нее объясняющими переменными. Если коэффициент детерминации слишком мал, то нужно искать другие факторы-переменные, причинно обусловливающие зависимую переменную. Следует отметить, что коэффициент детерминации удовлетворительно отвечает своему назначению при достаточно большом числе наблюдений. Но в любом случае необходимо проверить значимость коэффициента детерминации.

Вернемся к рассмотрению «необъясненной» дисперсии, возникающей за счет изменчивости прочих факторов-переменных, не зависящих от х, а также за счет случайностей. Чем больше ее доля в общей дисперсии, тем меньше, неопределеннее проявляется соотношение междууих, тем больше затушевывается связь между ними. Исходя из этих соображений мы можем использовать «необъясненную» дисперсию для характеристики неопределенности или неточности регрессии. Следующее соотношение служит мерой неопределенности регрессии:

(11)

Легко убедиться в том, что

(12)

Отсюда очевидно, что не нужно отдельно вычислять меру неопределенности, а ее оценку легко получить из (12).

Теперь вернемся к нашим примерам и определим коэффициенты детерминации для полученных уравнений регрессий.

Пример 1

Вычислим коэффициент детерминации по данным примера (зависимость производительности труда от уровня механизации работ). Используем для этого формулу (10), а промежуточные результаты вычислений заимствуем из таблицы, которая находится в приложении А:

Отсюда заключаем, что в случае простой регрессии 93,8% общей дисперсии производительности труда на рассматриваемых предприятиях обусловлено вариацией показателя механизации работ. Таким образом, изменчивость переменной хпочти полностью объясняет вариацию переменнойу.

Для этого примера коэффициент неопределенности , т. е. только 6,2% общей дисперсии нельзя объяснить зависимостью производительности труда от уровня механизации работ.

Пример 2

Вычислим коэффициент детерминации по данным примера (зависимость объема производства от основных фондов).

Таким образом, 91,1% общей дисперсии объема производства исследуемых предприятий обусловлено изменчивостью значений основных фондов на этих предприятиях. Данная регрессия почти полностью исчерпывается включенной в нее объясняющей переменной. Коэффициент неопределенности составляет 0,089, или 8,9%.

Следует отметить, что приведенные формулы предназначены для вычисления по результатам выборки большого объема коэффициента детерминации в случае простой регрессии. Но чаще всего приходится довольствоваться выборкой небольшого объема (n< 20). В этом случае вычисляют исправленный коэффициент детерминации, учитывая соответствующее число степеней свободы. Формула исправленного коэффициента детерминации для общего случаяnобъясняющих переменных будет приведена в разделе 3. Из нее легко получить формулу исправленного коэффициента детерминации в случае простой регрессии (m=1).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]