Регрессии и корреляции
.pdfГрафический анализ зависимости отклонений от величины объясняющей переменной - является удобным и надежным методом выявления гетероскедастичности (особенно для парной регрессии).
а) гомоскедастичность, б) гетероскедастичность:
в) линейная, г) квадратичная, д) гиперболическая зависимости квадратов отклонений εi2 от объясняющей переменной xi
практическое значение модели линейной регрессии
1.Модель проста как в реализации, так и в практическом толковании.
2.Линейная модель может выступать в качестве начального приближения в итерационном процессе последовательного продвижения к более сложной и адекватной модели.
3.Иногда интересующая нас с целью прогнозирования область может быть локально представлена линейной функцией (за пределами этой области данные наблюдений могут иметь нелинейный характер).
4.Довольно широкий класс нелинейных регрессий сводится к линейным путем тождественных математических преобразований. Это так называемые линейные относительно параметров модели. Выполнив, как правило,
логарифмирование и/или замену переменных, можно свести исходно нелинейную модель к линейной форме.
Линеаризация практически важных форм уравнения регрессии
|
|
линеаризующие преобразования |
||
функция |
|
|
|
|
для переменных |
для коэффициентов |
|||
|
|
|
|
|
|
y’ |
x’ |
b0’ |
b1’ |
y = b0 + b1/x |
y |
1/x |
b0 |
b1 |
y = 1/(b0 + b1x) |
1/y |
x |
b0 |
b1 |
y = x/(b0 + b1x) |
x/y |
x |
b0 |
b1 |
y = b0 exp( b1·x) |
Ln(y) |
x |
Ln(b0) |
Ln(b1) |
|
|
|
|
|
y = b0·xb1 |
Ln(y) |
Ln(x) |
Ln(b0) |
b1 |
|
|
|
|
|
y = b0 + b1·Ln(x) |
y |
Ln(x) |
b0 |
b1 |
|
|
|
|
|
y = b0/( b1·+ x) |
1/y |
x |
b1/b0 |
1/b0 |
y = b0 + b1·xn |
y |
xn |
b0 |
b1 |
Ограничения и условия применения корреляционно-регрессионных методов
1.Наличие достоверных данных по достаточно большой совокупности.
2.Надежное выражение закономерности в средней величине требует,
чтобы элементы совокупности несли изучаемый признак Y с приближенно равной степенью (однородность совокупности ).
3.Отдельные наблюдения совокупности должны быть независимыми.
4.При изучении взаимосвязей использовать изменяемые показатели.
5.Все факторные признаки должны иметь количественные значения.
6.Распределение факторных и результативных признаков должно
подчиняться нормальному закону (при использовании МНК).
7.Практическое использование корреляционно-регрессионного анализа допустимо и для детерминированных связей (скрытый характер реальной вероятностной связи).
МНОЖЕСТВЕННАЯ РЕГРЕССИЯ. ВВЕДЕНИЕ
Рассмотренная ранее модель парной регрессии описывает поведение изучаемого признака Y при изменении фактора Х. Такой подход допустим в том случае, когда среди множества
влияющих на Y факторов удаётся выделить один доминирующий. Это не всегда возможно - в реальности изучаемый показатель Y
формируется под воздействием множества факторов Х1, Х2,…, Хk
Приведём ряд вопросов, которые стоят перед исследователем.
•Как строится модель регрессии в этом реальном случае?
•Как отобрать факторные переменные Xi, которые наилучшим образом представляют результирующий показатель Y?
•В какой мере каждый фактор Xi влияет на результат Y?
МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
Модель множественной линейной регрессии:
Y = β0 + β1 X1 + β2 X 2 +... + βk X k + Ε
Здесь Х1, Х2,…, Хk – независимые (факторные) переменные. Модель включает две статистически независимые компоненты:
β0 + β1 X 1 + β2 X 2 +... + βk X k
- трендовая компонента, которая позволяет оценить влияние факторных переменных на результирующий показатель “в среднем” (т.е. функция регрессии),а Ε – случайная компонента или ошибка модели.
.
ОЦЕНКА ФУНКЦИИ РЕГРЕССИИ
Для имеющихся в распоряжении выборочных данных строим оценочное уравнение множественной регрессии в виде:
Y = b0 + b1 X1 + b2 X 2 + ... + bk X k
По аналогии с парным случаем получение оценок b0, b1,…, bk для
β0, β1,…, βk основано на МНК : Σ(y-b0-b1x1-b2x2-…-bkxk)2 → min.
Приравнивая к нулю производные по b0, b1,…, bk , получим систему k+1 линейных алгебраических уравнений, решение которой дает искомые оценки b0, b1,…, bk.
Далее исследуют статистические свойства отдельных параметров и модели в целом для её практического применения.
Таким образом, большая часть множественного регрессионного анализа является обобщением парного подхода на случай многих факторных переменных.
Корреляционный анализ
Интуитивно хочется ввести в модель как можно больше факторов чтобы повысить её информативность. С другой стороны, загруженность модели переменными наверняка усложнит её расчёт и трактовку полученных результатов. Отсюда основная задача корреляционного анализа:
сколько и какие именно факторные переменные Xi следует включить в модель множественной линейной регрессии?
1)Для надёжной оценки параметров модели β0, β1,…, βk по МНК требуется, чтобы число наблюдений n превосходило число факторных переменных k по крайней мере в три раза (оптимально – в шесть раз).
Продолжение
2)Из множества возможных факторных переменных в модель вводят только те Xi, которые наиболее информативны, то есть наиболее тесно связаны с изучаемым показателем Y: │ rxi,y│→1.
3)Для оценки вклада каждой отдельной независимой переменной Xi в вариацию зависимой переменной Y необходимо, чтобы независимые переменные были слабо связаны друг с другом,
т.е. │ rxi,хk│→0. В противном случае (при │ rxi,хk│→1) говорят о мультиколлинеарности – тесной линейной связи двух или более
факторных переменных Xi. Тесно связанные переменные Xi и Xk объясняют одну и ту же вариацию признака Y - дублируют друг друга в модели.
Например, в предельном случае детерминированной линейной связи двух переменных x2=a·x1+b, где a и b константы функция f(x1, x2) = f(x1, a·x1+b), то есть фактически зависит от одной переменной x1, x2 оказывается избыточной (неинформативна).
Продолжение (соображения общего порядка)
•При ограниченном объёме выборочных данных точность оценивания падает с увеличением сложности модели (общее заключение мат. статистики);
•большое число предикторных переменных серьёзно усложняет модель. Поэтому список включаемых в модель x1, x2,…, xр проверяют по целому ряду признаков. Например, в модель отбирают только те факторы, которые существенно влияют на признак Y. Далее учитывают возможность внутренней взаимосвязи между переменными x1, x2,…, xр. Кроме того, отбор требует глубокого теоретического и практического знания качественной стороны изучаемого процесса или явления;
•при неудачном выборе общего вида искомой зависимости Y от x1, x2,…, xр результаты её оценки по различным выборкам будут существенно отличаться друг от друга (говорят, что искомая модель неустойчива к изменению состава выборочных данных, на основании которых она оценивается). Выбор устойчивой модели: сначала обсчитывают все конкурирующие модели на полной выборке, а затем, например, на половине выборочных данных.
Та модель, которая даст приблизительно совпадающие результаты является устойчивой к варьированию состава выборочных данных