Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Регрессии и корреляции

.pdf
Скачиваний:
17
Добавлен:
12.04.2015
Размер:
884.32 Кб
Скачать

Графический анализ зависимости отклонений от величины объясняющей переменной - является удобным и надежным методом выявления гетероскедастичности (особенно для парной регрессии).

а) гомоскедастичность, б) гетероскедастичность:

в) линейная, г) квадратичная, д) гиперболическая зависимости квадратов отклонений εi2 от объясняющей переменной xi

практическое значение модели линейной регрессии

1.Модель проста как в реализации, так и в практическом толковании.

2.Линейная модель может выступать в качестве начального приближения в итерационном процессе последовательного продвижения к более сложной и адекватной модели.

3.Иногда интересующая нас с целью прогнозирования область может быть локально представлена линейной функцией (за пределами этой области данные наблюдений могут иметь нелинейный характер).

4.Довольно широкий класс нелинейных регрессий сводится к линейным путем тождественных математических преобразований. Это так называемые линейные относительно параметров модели. Выполнив, как правило,

логарифмирование и/или замену переменных, можно свести исходно нелинейную модель к линейной форме.

Линеаризация практически важных форм уравнения регрессии

 

 

линеаризующие преобразования

функция

 

 

 

для переменных

для коэффициентов

 

 

 

 

 

 

y’

x’

b0

b1

y = b0 + b1/x

y

1/x

b0

b1

y = 1/(b0 + b1x)

1/y

x

b0

b1

y = x/(b0 + b1x)

x/y

x

b0

b1

y = b0 exp( b1·x)

Ln(y)

x

Ln(b0)

Ln(b1)

 

 

 

 

 

y = b0·xb1

Ln(y)

Ln(x)

Ln(b0)

b1

 

 

 

 

 

y = b0 + b1·Ln(x)

y

Ln(x)

b0

b1

 

 

 

 

 

y = b0/( b1·+ x)

1/y

x

b1/b0

1/b0

y = b0 + b1·xn

y

xn

b0

b1

Ограничения и условия применения корреляционно-регрессионных методов

1.Наличие достоверных данных по достаточно большой совокупности.

2.Надежное выражение закономерности в средней величине требует,

чтобы элементы совокупности несли изучаемый признак Y с приближенно равной степенью (однородность совокупности ).

3.Отдельные наблюдения совокупности должны быть независимыми.

4.При изучении взаимосвязей использовать изменяемые показатели.

5.Все факторные признаки должны иметь количественные значения.

6.Распределение факторных и результативных признаков должно

подчиняться нормальному закону (при использовании МНК).

7.Практическое использование корреляционно-регрессионного анализа допустимо и для детерминированных связей (скрытый характер реальной вероятностной связи).

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ. ВВЕДЕНИЕ

Рассмотренная ранее модель парной регрессии описывает поведение изучаемого признака Y при изменении фактора Х. Такой подход допустим в том случае, когда среди множества

влияющих на Y факторов удаётся выделить один доминирующий. Это не всегда возможно - в реальности изучаемый показатель Y

формируется под воздействием множества факторов Х1, Х2,…, Хk

Приведём ряд вопросов, которые стоят перед исследователем.

Как строится модель регрессии в этом реальном случае?

Как отобрать факторные переменные Xi, которые наилучшим образом представляют результирующий показатель Y?

В какой мере каждый фактор Xi влияет на результат Y?

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Модель множественной линейной регрессии:

Y = β0 + β1 X1 + β2 X 2 +... + βk X k + Ε

Здесь Х1, Х2,…, Хk – независимые (факторные) переменные. Модель включает две статистически независимые компоненты:

β0 + β1 X 1 + β2 X 2 +... + βk X k

- трендовая компонента, которая позволяет оценить влияние факторных переменных на результирующий показатель “в среднем” (т.е. функция регрессии),а Ε – случайная компонента или ошибка модели.

.

ОЦЕНКА ФУНКЦИИ РЕГРЕССИИ

Для имеющихся в распоряжении выборочных данных строим оценочное уравнение множественной регрессии в виде:

Y = b0 + b1 X1 + b2 X 2 + ... + bk X k

По аналогии с парным случаем получение оценок b0, b1,…, bk для

β0, β1,…, βk основано на МНК : Σ(y-b0-b1x1-b2x2-…-bkxk)2 → min.

Приравнивая к нулю производные по b0, b1,…, bk , получим систему k+1 линейных алгебраических уравнений, решение которой дает искомые оценки b0, b1,…, bk.

Далее исследуют статистические свойства отдельных параметров и модели в целом для её практического применения.

Таким образом, большая часть множественного регрессионного анализа является обобщением парного подхода на случай многих факторных переменных.

Корреляционный анализ

Интуитивно хочется ввести в модель как можно больше факторов чтобы повысить её информативность. С другой стороны, загруженность модели переменными наверняка усложнит её расчёт и трактовку полученных результатов. Отсюда основная задача корреляционного анализа:

сколько и какие именно факторные переменные Xi следует включить в модель множественной линейной регрессии?

1)Для надёжной оценки параметров модели β0, β1,…, βk по МНК требуется, чтобы число наблюдений n превосходило число факторных переменных k по крайней мере в три раза (оптимально – в шесть раз).

Продолжение

2)Из множества возможных факторных переменных в модель вводят только те Xi, которые наиболее информативны, то есть наиболее тесно связаны с изучаемым показателем Y: │ rxi,y│→1.

3)Для оценки вклада каждой отдельной независимой переменной Xi в вариацию зависимой переменной Y необходимо, чтобы независимые переменные были слабо связаны друг с другом,

т.е. │ rxi,хk│→0. В противном случае (при │ rxi,хk│→1) говорят о мультиколлинеарности – тесной линейной связи двух или более

факторных переменных Xi. Тесно связанные переменные Xi и Xk объясняют одну и ту же вариацию признака Y - дублируют друг друга в модели.

Например, в предельном случае детерминированной линейной связи двух переменных x2=a·x1+b, где a и b константы функция f(x1, x2) = f(x1, a·x1+b), то есть фактически зависит от одной переменной x1, x2 оказывается избыточной (неинформативна).

Продолжение (соображения общего порядка)

•При ограниченном объёме выборочных данных точность оценивания падает с увеличением сложности модели (общее заключение мат. статистики);

•большое число предикторных переменных серьёзно усложняет модель. Поэтому список включаемых в модель x1, x2,…, xр проверяют по целому ряду признаков. Например, в модель отбирают только те факторы, которые существенно влияют на признак Y. Далее учитывают возможность внутренней взаимосвязи между переменными x1, x2,…, xр. Кроме того, отбор требует глубокого теоретического и практического знания качественной стороны изучаемого процесса или явления;

•при неудачном выборе общего вида искомой зависимости Y от x1, x2,…, xр результаты её оценки по различным выборкам будут существенно отличаться друг от друга (говорят, что искомая модель неустойчива к изменению состава выборочных данных, на основании которых она оценивается). Выбор устойчивой модели: сначала обсчитывают все конкурирующие модели на полной выборке, а затем, например, на половине выборочных данных.

Та модель, которая даст приблизительно совпадающие результаты является устойчивой к варьированию состава выборочных данных