Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Tema_2

.pdf
Скачиваний:
14
Добавлен:
27.05.2015
Размер:
1.28 Mб
Скачать

1

Тема №2. Парная(простая) регрессияикорреляция

План:

1.Видырегрессии. Спецификациямодели.

2.Линейнаярегрессияикорреляция:

2.1.смыслиоценкапараметров;

2.2.оценкасущественностипараметров;

2.3.интервалыпрогноза.

3.Средняяошибкааппроксимации.

4.Нелинейнаярегрессия:

4.1.классыивидынелинейныхрегрессий;

4.2.корреляциядлянелинейнойрегрессии.

1.Видырегрессии. Спецификациямодели.

Эконометрика, преждевсего, связанасметодамирегрессииикорреляции. Корреляционный анализ, разработанный К.Пирсоном и Дж.Юлом, является

одним из методов статистического анализа взаимозависимости нескольких признаков. Показателями взаимозависимости случайных величин являются парные коэффициенты корреляции, частные и совокупные коэффициенты корреляции. Корреляционный анализ определяется как метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа состоит в оценке параметров, определяющих нормальный закон распределения.

После того как с помощью корреляционного анализа выявлено наличие статистически значимых связей между переменными и оценена степень их частоты, переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. С этой целью подбирают класс функций, связывающий результативный показатель и аргументы, отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров уравнения связи и анализируют точность полученного уравнения. Функция, описывающая зависимость условного среднего значения результативного признака от значений аргументов, называется функцией (уравнением) регрессии. (термин «регрессия», лат. – отступление, возврат к чему-либо.)

В зависимости от количества факторов, включенных в уравнение регрессии, различаютпростую(парную) имножественнуюрегрессии.

Парная (простая) регрессия представляет собой регрессию между двумя переменными- уих, т. е. модельвида: y=f(x),

гдеузависимаяпеременная(результативныйпризнак); хнезависимая, илиобъясняющая, переменная(признак-фактор).

Множественная регрессия представляет собой регрессию результативного признакасдвумяибольшимчисломфакторов, т. е. модельвида: y=f(x1,x2,…,xk).

(Вданнойглавеобратимсякпарнойрегрессии.)

Эконометрическое исследование начинается со спецификации модели, т.е. с формулировкивидамодели, т.е. стеории, устанавливающейсвязьмеждуявлениями.

Прежде всего из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия

1

2

достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющейпеременной.

Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по

совокупностинаблюдений. Величина ускладываетсяиздвухслагаемых: y=yтx+E, где y—фактическоезначениерезультативногопризнака;

yтx. — теоретическое значение результативного признака, найденное исходя изсоответствующейматематическойфункциисвязиуих, т. е. изуравнениярегрессии;

E случайная величина (возмущение), характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнениюрегрессии.

Присутствие случайных ошибок в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

К ошибкам спецификации будут относиться: неправильный выбор той или иной математической функции для yтx, недоучет в уравнении регрессии какого-либо существенного фактора, например, использование парной регрессии вместо множественной.

Ошибки выборки имеют место и в силу неоднородности данных в исходной статистической совокупности, что, как правило, бывает при изучении экономических процессов. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности единицы с аномальными значениями исследуемых признаков. И в этом случаерезультатырегрессиипредставляютсобойвыборочныехарактеристики.

Использование временной информации также представляет собой выборку из всегомножествахронологическихдат. Измениввременнойинтервал, можнополучить другиерезультатырегрессии.

Наибольшую опасность в практическом использовании методов регрессии представляют ошибки измерения. Особенно велика роль ошибок измерения при исследованиинамакроуровне.

Предполагая, чтоошибки измерения сведенык минимуму, основноевниманиев эконометрическихисследованияхуделяетсяошибкамспецификациимодели.

В парной регрессии выбор вида математической функции yтx.=f(х) может бытьосуществлентремяметодами:

графическим;

аналитическим, т. е. исходяизтеорииизучаемойвзаимосвязи;

экспериментальным.

Графическийметод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции. Основные типы кривых, используемые при количественной оценке связей, представленынарис.

2

3

Значительный интерес представляет аналитическийметод выбора типа уравнения регрессии. Оноснованнаизученииматериальнойприродысвязиисследуемыхпризнаков.

Пример: изучается потребность предприятия в электроэнергии у в зависимости от объема выпускаемой продукции х. Все потребление электроэнергии у можно подразделитьнадвечасти:

•несвязанноеспроизводствомпродукцииа;

•непосредственносвязанноесобъемомвыпускаемойпродукции, пропорционально возрастающее с увеличением объема выпуска (b• х). Тогда зависимость потребления электроэнергии от объема продукции можно выразить уравнением регрессии вида: yxТ=a+bx. Если затем разделить обе части уравнения на величину объема выпуска продукции(x), тополучимвыражениезависимостиудельного расхода электроэнергии на единицу продукции от объёма выпущенной продукции (x) в виде уравнения равностороннейгиперболы:zxТ=b+a/x.

При обработке информации на компьютере выбор вида уравнения регрессии осуществляетсяэкспериментальнымметодом, т.е. путемсравнениявеличиныостаточной дисперсии Dост, рассчитанной при разных моделях. Если уравнение регрессии проходит черезвсеточкикорреляционного поля, что возможно только при функциональной связи, когда все точки лежат на линии регрессии yтx.=f(х), то фактические значения результативного признака совпадают с теоретическими y=yтx., т. е. они полностью обусловлены влиянием фактора х. В этом случае остаточная дисперсия Dост.=0 В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих не учитываемых в уравнении регрессии факторов. Иными словами, имеют место отклонения фактических данных от теоретических (y - yтx.). Величина этих отклонений и лежит в основе расчета остаточнойдисперсии:

Dост.=

Чем меньше величина Dост, тем меньше влияние прочих не учитываемых в уравнении регрессии факторов, тем лучше уравнение регрессии подходит к исходным данным. В автоматическом режиме выбирается математическая функция с наименьшей остаточнойдисперсией.

Если остаточная дисперсия оказывается примерно одинаковой для нескольких функций, то на практике предпочтение отдаётся более простым видам функций, т.к. они в большей степени поддаются интерпретации и требуют меньшего объёма наблюдений. (Известно, что число наблюдений должно 6-7 раз ревышать число расcчитываемых параметров при переменной x . Например, если мы выбираем параболу второй степени yТx=a+bx+cx2, тотребуетсяобъёминформацииуженеменее14 наблюдений.)

2.1.Линейнаярегрессияикорреляция: смыслиоценка параметров.

Линейная регрессия находит широкое применение в эконометрике в виде четкой экономическойинтерпретацииеепараметров. Линейнаярегрессиясводитсякнахождению уравнениявида:

3

4 y=a+bx+E или yТx=a+bx позволяетпозаданнымфактическимзначениямфактора

x иметьтеоретическиезначениярезультативногопризнака. Награфикетеоретическиезначенияпредставляютлиниюрегрессии(см. рис.):

Построение линейной регрессии сводится к оценке ее параметров — а и b. Оценкипараметровлинейнойрегрессиимогутбытьнайденыразными методами:

1.) можно обратиться к полю корреляции и, выбрав на графике две точки, провести через них прямую линию (см. рис.). Далее по графику можно определить значения параметров. Параметр а определим как точку пересечения линии регрессии с осьюоу, апараметрb оценим, исходяизугланаклоналиниирегрессии, какb=tg =dy/dx , где dyприращениерезультатаy, аdx приращениефакторах.

2.) Классический подход к оцениванию параметров линейной регрессииоснован наметоденаименьшихквадратов(МНК).

МНК позволяет получить такие оценки параметров а и b при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных (теоретических) yТx минимальна:

. Т.к. , то

Т.е., из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний повертикалимеждуточкамииэтойлиниейбылабы минимальной(см. рис.- линиярегрессиисминимальнойдисперсиейостатков):

Чтобынайтиминимумфункции надовычислитьчастныепроизводные

покаждомуизпараметровa иb иприровнятьихкнулю:

4

5

Преобразуя формулы, получим следующую системунормальныхуравненийдля

оценкипараметроваиb:

Решая систему нормальных уравнений либо методом последовательного исключения переменных, либо методом определителей, найдем искомые оценки параметроваиb. Можновоспользоватьсяследующимиготовымиформулами:

(этаформулаполученапутёмделенияпервогоуравнениясистемынаn).

,где - ковариацияпризнаков;

- дисперсияпризнакаx.

.

Параметр b называется коэффициентом регрессии. Его величина показывает среднееизменениерезультатасизменениемфакторанаодну единицу.

Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрическихисследованиях.

Формально а значение у при х = 0. Если признак-фактор х не имеет и не может иметь нулевого значения, то вышеуказанная трактовка свободного члена а не имеет смысла. параметраможетнеиметьэкономическогосодержания. Попыткиэкономически интерпретироватьпараметрамогутпривестикабсурду, особенноприа<0.

Интерпретировать можно лишь знак при параметре а. Если а > 0, то относительное изменение результата происходит медленнее, чем изменение фактора.,т.е. вариация

результата меньше вариации фактора - коэффициент вариации по фактору х вышекоэффициентавариациидлярезультатау: Vx >Vy.

Где

- коэффициентвариациипоx;

-среднеквадратическоеотклонениеx;

-среднеарифметическоеотклонениеx.

Если переменные х и у выразить через отклонения от средних уровней, то линия регрессиинаграфикепройдетчерезначалокоординат: y’т=bx

гдеи.

Оценкакоэффициентарегрессииприэтомнеизменится.

Оценку коэффициента регрессии можно получить проще, не обращаясь к методу наименьших квадратов. Альтернативную оценку параметра b можно найти исходя из

5

6

содержания данного коэффициента: изменение результата сопоставляют с изменениемфактора.

Эта величина является приближенной, ибо большая часть информации, имеющейся в данных, не используется при ее расчете. Она основана только на минимальных и максимальныхзначенияхпеременных.

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный

коэффициент корреляции rxy.. Некоторые формулы линейного коэффициента корреляции:

Линейныйкоэффициенткорреляциинаходитсявграницах: -1≤rxy≤1. Если коэффициент регрессии b>0, то 0≤rxy≤1, при b<0, -1≤rxy≤0.

Следуетиметьввиду, чтовеличиналинейногокоэффициентакорреляцииоценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При иной спецификации модели связь между признакамиможетоказатьсядостаточнотесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции rxy2, называемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака у, объясняемуюрегрессией, вобщейдисперсиирезультативногопризнака:

.

Величина коэффициента детерминации служит одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака. Соответственно величина 1-r2 характеризует долю дисперсии у, вызваннуювлияниемостальныхнеучтенныхвмоделифакторов.

2.2. ОЦЕНКАСУЩЕСТВЕННОСТИПАРАМЕТРОВ

После того как найдено уравнение линейной регрессии, проводится оценка значимостикакуравнениявцелом, такиотдельныхегопараметров.

Оценказначимостиуравнениярегрессии

Оценка значимости уравнения регрессии в целом дается с помощью критерия Фишера. Приэтомвыдвигаетсянулеваягипотеза, чтокоэффициентрегрессииравеннулю, т. е. b = 0, и, следовательно, факторхнеоказываетвлияниянарезультату.

6

7

Непосредственному расчету F-критерия предшествует дисперсионный. анализ Центральное место в нем занимает разложение обшей суммы квадратов отклонений переменнойуотсреднегозначениянадвечасти—«объясненную» и«необъясненную»:

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества причин. Условно разделим всю совокупностьпричиннадвегруппы: изучаемыйфакторхипрочиефакторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике

параллельна оси ох и . Тогда вся дисперсия результативного признака

обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадетсостаточной. Если жепрочиефакторыневлияютнарезультат, то усвязан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратовотклонений, объясненнаярегрессией, совпадаетсобщейсуммойквадратов.

Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент

детерминацииrxy2 будетприближатьсякединице.

Любая сумма квадратов отклонений связана с числом степеней свободы (df — degrees of freedom), т. е. с числом свободы независимого варьирования признака. Число степеней свободы связаносчисломединиц совокупности n ис числомопределяемыхпо нейконстант.

Число степеней свободы показывает, сколько независимых отклонений из п возможных требуетсядляобразованияданнойсуммыквадратов.

Так, для общей суммы квадратов требуется (п - 1) независимых

отклонений, т.к. из пединиц после расчета среднего уровня свободно варьируют лишь (п

1) числоотклонений. Например, имеемрядзначенийy: 1, 2, 3, 4, 5. Среднееизнихравно 3, и тогда п отклонений от среднего составят: -2; - 1; 0; 1; 2. Так как , то

свободноварьируютлишьчетыреотклонения, апятоеотклонениеможетбытьопределено, еслипредыдущиечетыреизвестны. Итак, dfобщ=n-1.

При расчете объясненной или факторной суммы квадратов

используются теоретические (расчетные) значения результативного признака уxТ,

найденные по линии регрессии: уxТ = а+b х. Очевидно, что .

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при

7

8

линейной регрессии зависит только от одной константы коэффициента регрессии b, то даннаясуммаквадратовимеетоднустепеньсвободы: dfобъясн. регр.=1.

Существуетравенствомеждучисломстепенейсвободыобщей, факторнойи остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов прилинейнойрегрессиисоставляетdfост=n-2.

Итак, имеемдваравенства:

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим среднийквадратотклонений, или, что то же самое, дисперсиюна однустепеньсвободы:

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степеньсвободы, получимвеличинуF-отношения(F-критерий):

, где F-критерий для проверки нулевойгипотезыHo: Dфакт=Dост.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаютсядруготдруга. Для Ho необходимоопровержение, чтобыфакторнаядисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенностинулевойгипотезыиразличномчислестепенейсвободы. Табличноезначение F-критерия — это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признается достоверным (отличным от единицы), еслионобольшетабличного. Вэтомслучаенулеваягипотезаоботсутствиисвязи признаковотклоняетсяиделаетсявыводосущественностиэтойсвязи:

Fфакт>Fтабл Ho отклоняется.

Если же величина окажется меньше табличной Fфакт<Fтабл, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессиисчитаетсястатистическинезначимым. Ho неотклоняется.

Величина F-критерия связана с коэффициентом детерминации r2. Факторную

суммуквадратовотклоненийможнопредставитькак , аостаточную

сумму квадратов — как

. Тогда значение F-критерия можно

выразитькак

Оценказначимостипараметровуравнениярегрессии

8

9

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяетсяегостандартнаяошибка: тb итa.

Стандартнаяошибкакоэффициентарегрессииb определяетсяпоформуле:

где Dост - остаточнаядисперсиянаоднустепеньсвободы.

Для оценки существенности коэффициента регрессии его величина сравниваетсясегостандартнойошибкой, т. е. определяется фактическое значение t-

критерия Стьюдента: , которое затем сравнивается с табличным

значениемприопределенномуровнезначимости ичислестепенейсвободы(n-2). Справедливоравенство: :

Доверительныйинтервалдлякоэффициентарегрессииопределяетсякак

b±t mb.

Поскольку коэффициент регрессии в эконометрических. исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10 < b < 40. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чегонеможетбыть.

Стандартнаяошибкапараметра аопределяетсяпоформуле:

Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии: вычисляется t-критерий: , его

величинасравниваетсястабличнымзначениемпри(п-2) степеняхсвободы.

Значимость линейного коэффициента корреляции проверяется на основе величиныошибкикоэффициентакорреляцииmr:

.

Фактическое значение t-критерия Стьюдента определяется как

Даннаяформуласвидетельствует, чтовпарнойлинейнойрегрессииtr2=F, таккак

. Крометого, tb2=F, следовательноtr2=tb2.

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

9

10

Рассмотренная формула оценки коэффициента корреляции рекомендуется к применению при большом числе наблюдений и если r не близко к + 1 или -1. Если же величина коэффициента корреляции близка к + 1, то распределение его оценок отличается от нормального или распределения Стьюдента, так как величина коэффициента корреляции ограничена значениями от -1 до +1. Чтобы обойти это затруднение, Р. Фишером было предложено для оценки существенности r ввести вспомогательную величину z, связанную с коэффициентом корреляции следующим отношением:

При изменении r от -1 до +1 величина z изменяется от - до + , что соответствуетнормальномураспределению. Математический анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к единице значениях коэффициента корреляции. Стандартная ошибка величины z определяетсяпоформуле:

гдеп—числонаблюдений.

Величину z можно не рассчитывать, а воспользоваться готовыми таблицами z-преобразования, в которых приведены значения величины z для соответствующих значенийr.

Ввиду того, что z и r связаны между собой приведенным выше соотношением, можно вычислить критические значения r, соответствующие каждому из значений r. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Критические значения r предполагают справедливость нулевой гипотезы, т. е. r мало отлично от нуля. Если фактическое значениекоэффициентакорреляциипоабсолютнойвеличинепревышаеттабличное, то данное значение r считается существенным. Если же r оказывается меньше табличного, тофактическоезначениеr несущественно.

2.3ИНТЕРВАЛЫПРОГНОЗА

Впрогнозных расчетах по уравнению регрессии определяется предсказываемое

уp значение как точечный прогноз теоретического значения yxT при xp=xk: уp=а+b хp. Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом

стандартнойошибки уxТ, - myp, иинтервальнойоценкипрогнозногозначения–строится доверительныйинтервалпрогноза.

Выведёмформулудля myp.

Имеем уравнение линейной регрессии: уxT=а+bх. Подставим в это уравнение

выражение параметра а: , тогда уравнение регрессии примет вид:

Следовательно, стандартная ошибка myp зависит от ошибки и ошибки коэффициентарегрессии b, т.е.

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]