Доверительный интервал для коэффициентов регрессии:
b j−t 2 ,n−p−1 Sb j j b j t 2 ,n− p−1 Sb j .
Точечная оценка результирующего признака:
y0=b0 b1 x01 b2 x02 ... bp x0p .
Доверительный интервал для условного математического ожидания
M x Y |
(или для линии регрессии): |
|
|
|
|
|
|
|
|
|
|||||
y−t |
,n− p−1 S y M x Y y t |
,n− p−1 S y , |
|
|
|
|
|
|
|
|
|||||
2 |
S y=S |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
где |
|
стандартна |
ошибка уравнения |
||||||||||||
X 0T X T X −1 X 0 |
|||||||||||||||
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x01 |
|
|
|
|
|
|
|
|
|
|
|
||
регрессии, X 0= x02 |
матрица |
прогнозных |
значений |
объясняющих |
|||||||||||
|
|
... |
|
|
|
|
|
|
|
|
|
|
|
||
переменных, |
x0p |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
1 |
|
x−x 2 |
|
|
|||
|
|
|
|
|
|
|
S y=S |
|
|
|
|
|
|
|
|
(в случае парной линейной регрессии |
n |
n |
|
|
2 ), |
||||||||||
|
|
∑ |
i |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
i=1 |
x |
−x |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n объем выборки, p число факторов в уравнении регрессии. Доверительный интервал для индивидуальных значений
зависимой переменной: |
y −t |
|
|
S y y t |
|
|
S |
|
|
|
|||||||
0 |
2 , n− p−1 |
y |
|
0 0 |
|
2 ,n− p−1 |
|
y |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
0 |
|
|
где S y0=S |
|
|
|
|
|
||||||||||||
1 X 0T X T X −1 X 0 |
оценка дисперсии индивидуальных |
||||||||||||||||
значений y0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
1 |
|
x |
−x 2 |
|
|
||
(в случае парной линейной регрессии |
S y |
=S 1 |
|
0 |
|
|
|
|
). |
||||||||
|
|
|
|
2 |
|||||||||||||
0 |
|
n |
|
n |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
x |
−x |
|
|||||
|
|
|
|
|
|
|
|
|
|
∑i =1 |
i |
|
|
|
4.ПРОБЛЕМЫ ПРАКТИЧЕСКОГО ИСПОЛЬЗОВАНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ
Мультиколлинеарность высокая взаимная коррелированность объясняющих переменных.
Последствия мультиколлинеарности :
1.Резко падает точность оценок параметров, получаемых с помощью метода наименьших квадратов. Ошибки некоторых параметров уравнения могут стать очень большими.
2.Выборочные характеристики регрессионной модели становятся крайне неустойчивыми. При добавлении (исключении ) некоторого количества наблюдений или факторов к массиву исходной информации может произойти резкое изменение оценок параметров.
3.Изза неустойчивости модели резко сокращаются возможности содержательной интерпретации модели, а также прогноза значений зависимой переменной y в точках, существенно удалённых от значений объясняющих переменных в выборке в виду ненадёжности получаемых результатов.
Признаки наличия мультиколлинеарности.
1) небольшие изменения в данных приводят к широким колебаниям оценок параметров;
2) коэффициенты регрессии имеют высокие стандартные ошибки, следовательно, оценка их значимости по tкритерию не имеет смысла, несмотря на тот факт, что совместно они высоко значимы и достаточно высоко значение множественного коэффициента детерминации;
3) коэффициенты могут иметь неверный знак или неправдоподобную величину.
Подходы к обнаружению мультиколлинеарности:
1.Анализ корреляционной матрицы между объясняющими переменными X1, X2, ..., Xp и выявление пары переменных, имеющие высокий коэффициент корреляции(обычно больше 0,7). Если такие переменные существуют, то говорят о мультиколлинеарности между ними.
2.Исследование матрицы XTX. Если определитель матрицы либо ее минимальное собственное число λmin близки к нулю, то это говорит о
наличии |
мультиколлинеарности. О том же свидетельствует и |
значительное отклонение максимального собственного числа λmax матрицы XTX от ее минимального собственного числа λmin. Также в качестве формального критерия мультиколлинеарности можно рассматривать отношение максимального собственного числа матрицы
XTX λmax к минимальному λmin: = max . Если λmin → 0, то ν бесконечно
min
велико и присутствует мультиколлинеарность. Для ν > 20 наблюдается приближенная коллинеарность объясняющих переменных. Для ν ≤ 20 можно считать, что мультиколлинеарность отсутствует.
Методы устранения мультиколлинеарности.
1.Переход от исходных объясняющих переменных X1, X2, ..., Xk, связанных между собой достаточно тесной корреляционной зависимостью, к новым переменным,представляющим линейную комбинацию исходных.
2.Отбор наиболее существенных объясняющих переменных. Производится, чаще всего в пошаговом режиме. На первом шаге рассматривается лишь объясняющая переменная, имеющая с зависимой переменной Y наибольший коэффициент детерминации. На следующем шаге включается в регрессию новая объясняющая переменная, которая вместе с первоначальной переменной дает наибольший (скорректированный) коэффициент детерминации. Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться соответствующий (скорректированный) коэффициент детерминации.
5.АНАЛИЗ ВРЕМЕННЫХ РЯДОВ
Временным рядом называют последовательность наблюдений, обычно упорядоченную во времени (возможно упорядочение и по какомуто другому параметру). Два главных отличия от наблюдений образующих пространственные выборки:
а) образующие временной ряд наблюдения, рассматриваемые как случайные величины, не являются взаимнонезависимыми, и, в частности, значение, которое мы получим в момент времени tk, может существенно зависеть от того, какие значения были зарегистрированы до этого момента времени;
б) наблюдения временного ряда (в отличие от элементов случайной выборки ) не образуют стационарной последовательности, т. е. закон распределения вероятностей kго члена временного ряда не остается одним и тем же при изменении его номера k; в частности от tk могут зависеть основные числовые характеристики случайной переменной xk ее среднее значение и дисперсия. Иначе говоря, при исследовании временных рядов существенное значение имеет тот порядок, в котором проводились наблюдения над исследуемой величиной.
Динамика рядов экономических показателей в общем случае складывается из четырёх компонентов:
1)тенденции, характеризующей долговременную основную закономерность развития исследуемого явления (тренда);
2)периодического компонента, связанного с влиянием сезонности развития изучаемого явления;
3)циклического компонента, характеризующего циклические колебания, свойственные любому воспроизводству (например, циклы обновления, связанные с чисто техническими проблемами );
4)случайного компонента как результата влияния множества случайных факторов.
Во временных рядах наблюдаются тенденции трёх видов: тенденция среднего уровня, тенденция дисперсии, тенденция автокорреляции.
Тенденция среднего уровня аналитически выражается в виде функции f(t), вокруг которой варьируют фактические значения изучаемого явления. Тенденция дисперсии это изменения отклонений эмпирических значений временного ряда от значений, вычисленных по
уравнению тренда. Тенденция автокорреляции это тенденция изменения связи между отдельными уровнями временного ряда.
Процедура проверки наличия тренда: временной ряд делится на две примерно равные части, для каждой из которых вычисляются величины
средних и дисперсий ( |
y |
, |
y |
, |
S2 |
S2 |
). |
|
|
|
|
|
|||||||||||
t1 |
t2 |
yt1 , |
yt2 |
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
n |
1 |
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
||
|
|
|
|
|
|
∑ yt |
, |
|
|
|
|
∑ |
yt |
, |
|
|
|
|
|||||
|
|
|
y |
= |
t=1 |
|
|
y |
= |
t =n−n2 1 |
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
t1 |
|
|
n1 |
|
|
|
t2 |
|
|
|
n2 |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
1 |
n1 |
|
|
|
|
|
|
|
|
|
|
1 |
|
|
n |
|
|
|
|
|||
S2 = |
∑ |
y |
− y |
2 |
, |
S2 |
= |
|
∑ |
y |
−y |
2 |
|||||||||||
|
|
||||||||||||||||||||||
|
|||||||||||||||||||||||
yt1 |
n |
−1 |
|
t |
|
t1 |
|
|
yt2 |
|
|
t |
|
t2 |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
n2−1 t=n−n −1 |
|
|
|
|
|||||||
|
1 |
|
t=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
n1 + n2 = n (n – количество уровней ряда, n1 |
и n2 |
количество |
|||||||||||||||||||||
уровней первой и второй части ряда соответственно). |
|
|
|
|
После этого проверяется гипотеза о равенстве дисперсий при уровне
значимости α, для чего формируются две гипотезы |
H 0 |
: |
S2yt1=S2yt2 , |
H 1 |
||||||||||||||||||
: S2yt1≠S2yt2 . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Значимость различий проверяется путём вычисления |
|
F = |
Sб2 |
|
(где |
|||||||||||||||||
|
2 |
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S м |
|
|
|
|
Sб2 |
и |
Sм2 большее и меньшее значения дисперсий |
|
S2yt1 и |
S2yt2 |
|
) и |
|||||||||||||||
сравнением ее с критическим значением F при |
k 1=n1−1 |
|
и k 2=n2 −1 |
|||||||||||||||||||
числах степеней свободы и уровне значимости α. Если |
|
F F ,k 1 , k2 |
|
, то |
||||||||||||||||||
принимается Н0. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
После этого проверяется основная гипотеза |
H |
0 : |
|
y |
=y |
, |
|
H |
1 : |
|||||||||||||
|
|
t1 |
|
t2 |
|
|
|
|||||||||||||||
y |
≠y |
для чего рассчитывается величина: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
t1 |
t2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
y |
− y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
n |
1 |
n |
n |
n |
−2 |
|
|
|
|
|
||||||
|
|
T = |
|
t1 |
t2 |
|
|
|
2 |
1 |
2 |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
n1 n2 |
|
|
|
|
|
|
|
|
|
||||
|
|
n1−1 St12 n2−1 St22 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
Если |
T t , |
( t , табличное значение критерия Стьюдента с |
||||||||||||||||||||
|
|
2 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
числом степеней свободы ),то принимается нулевая гипотеза о равенстве средних, расхождение между вычисленными средними незначимо, т.е. тренд отсутствует. В противном случае