Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Регрессии и корреляции

.pdf
Скачиваний:
17
Добавлен:
12.04.2015
Размер:
884.32 Кб
Скачать

1.Выбор типа уравнения регрессии (спецификация)

Исходя из сущности;

По графическому изображению реальных статистических данных (корреляционному полю);

Формально-математическим путём: из набора допустимых функций выбирается та, которая обеспечивает “наилучшее” соответствие реальным статистическим данным.

2. Параметризация линейного уравнения регрессии

Если по результатам корреляционного анализа между переменными Х и Y установлена достаточно тесная линейная связь, то предполагаемое (теоретическое ) уравнение регрессии имеет вид:

f(x) = М(Y/x) = β0 + β1Х .

Постоянные β0 и β1 - теоретические коэффициенты регрессии,

подлежащие определению.

Задача: по имеющимся статистическим данным (хi, yi), i=1, 2, ..., n для переменных X и Y:

получить оценки b0 и b1 для неизвестных параметров β0 и β1, т.е.

найти выборочную функцию регрессии $y = b0+b1·x ;

• определить статистические свойства оценок b0 и b1;

в соответствии с найденной функцией регрессии оценить качество всей модели, т.е. проверить её адекватность.

Параметризация методом наименьших квадратов

На этапе спецификации определена форма уравнения регрессии, то есть установлена функция f(x) в параметрическом виде.

Например, f(x) = a x+ b – линейная, f(x) = a x2+ b x+ c - параболическая форма уравнения регрессии…

Остаётся найти коэффициенты, то есть из ∞ множества кривых выделить наиболее подходящую путём указания конкретных числовых значений для параметров (коэффициентов) f(x).

Именно такую задачу решает МНК:

по данным наблюдений (хi, yi), i=1, 2, ..., n для переменных X и Y подобрать числовые значения коэффициентов в аппроксимирующей функции f(x), которые обеспечат минимальное суммарное отклонение f(x) от наблюдаемых значений (хi, yi), i=1, 2,..., n.

Замечание: отклонения понимают в среднеквадратическом смысле.

МЕТОД

НАИМЕНЬШИХ КВАДРАТОВ (МНК)

n

n

n

 

Q =ei2 =(yi y)i )2 =(yi b0 b1xi )2

m i n

i=1

i=1

i=1

 

y

yi

ei

 

xi

х

 

 

 

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ (МНК)

Q

b0Qb1

n

 

b

 

b x ) =0

 

 

 

 

 

 

 

xi =yi

=−2 (y

 

 

 

 

+b1

i

0

 

 

1 i

nb0

i=1

 

 

 

 

 

 

 

 

 

x

+b x2

 

x y

n

 

 

 

 

 

b

=

=−2(yi b0 b1xi )xi =0

 

0 i

 

 

 

1i

 

i i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

nxi yi xi yi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

,

 

 

 

b =

 

xy

x

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

nxi2 (xi )2

 

 

 

 

 

x2 x 2

 

 

 

b0 =

 

1

(yi b1 xi ) = y b1 x.

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b1 - угловой коэффициент регрессии - показывает, на сколько единиц в среднем изменяется y при изменении x на единицу своего измерения. Постоянная b0 дает среднее значение зависимой переменной y при х = 0.

Результаты применения МНК

1.За оценки параметров функции регрессии берут те значения, при которых минимально суммарное расстояние точек (xi, yi) от линии

регрессии.

2.Выборочное уравнение регрессии имеет вид: $y = b0+b1·x

3.Оценки b0 и b1 являются точечными оценками теоретических коэффициентов регрессии β0 и β1 и легко вычисляются по МНК .

4.Выборочная прямая регрессии обязательно проходит через точку ( x , y ): смотри второе уравнение для b0.

5.По способу построения уравнения регрессии имеем:

Σеi = 0 → 1/n Σ еi = 0 → e = 0: средняя ошибка вдоль линии регрессии равна нулю.

2. Статистический анализ коэффициентов уравнения регрессии b0 и b1

Напомним, что оценка значимости любого параметра Ω генеральной совокупности с нормальным законом распределения проверяется по

выборке объёма n: величина выборочной оценки Ω(n) для истинного

параметра Ω сравнивается с величиной его стандартной ошибки SΩn (выборочный аналог среднего квадратического отклонения). Так например, если стандартная ошибка параметра больше его величины (Ω(n) / SΩn < 1), то параметр не может быть признан значимым - доверительная вероятность при двусторонней гипотезе Ω ≠0 составляет менее 0,7. Напротив, если Ω(n) / SΩn > 3, значимость параметра почти гарантирована (правило трёх сигм).

В ходе проверки значимости теоретических коэффициентов регрессии рассматривается двухсторонняя критическая область, так как они могут быть и положительными, и отрицательными - важно лишь их отличие от нуля.

Применение этого общего подхода в нашем случае возможно только при условии, что переменная Х измерена в эксперименте значительно точнее Y (скрытая стохастичность!). Для точных Х доказано, что оценки b0 и b1 распределены нормально, т.е. их значимость следует проверять с использование статистики Стьюдента.

1. Статистическая значимость коэффициентов регрессии: Н0: βi = 0 ; Н1: βi≠0. При выполнении Н0 статистика ti = bi/ Sbi распределена по закону Стьюдента с (n – 2) степенями свободы. Стандартные ошибки Sbi находим из оценок:

 

 

 

 

 

 

 

 

 

2

 

S 2 xi2

 

2

 

S2

Sb0

=

 

 

 

Sb1

=

 

 

n(xi x)2

 

 

(xi x)2

Если | ti | < t(α/2, n-2) , то H0 принимается. Здесь t(α/2, n-2) – критическая точка распределения Стьюдента для уровня значимости α. S2=Σei2/(n-2)

При | ti | > t(α/2, n-2) , H0 отклоняется - коэффициент βi значим.

Замечание: в линейной регрессии проверку значимости начинают с углового коэффициента β1: при β1= 0 переменные X и Y не связаны между собой, т.е. уравнение регрессии не имеет смысла. Если же β0=0, то “генеральное” уравнение регрессии проходит через начало координат, т.е. f(X) = β1·X.

2. Свойства оценок коэффициентов регрессии: Н0: bi = βi; Н1: bi ≠ βi. При выполнении Н0 статистика ti = (bi - βi)/ Sbi распределена по Стьюденту с n – 2 степенями свободы.

Если | ti | < t(α/2, n-2) , то H0 принимается, bi оценивают βi с уровнем

значимости α (вероятность ошибки 1 рода – отвергнуть верную гипотезу).

При | ti | > t(α/2, n-2) , H0 отклоняется.

Доверительные интервалы для коэффициентов

уравнения регрессии

Если b1 оценивает значение β1 с вероятностью ошибки α , то:

b1 β1

<t(α / 2, n 2) t(α / 2, n 2) <

b1 β1

<+t(α / 2, n 2)

Sb

 

 

Sb

1

1

 

b1 t(α / 2, n 2) Sb1 < β1 <b1 +t(α / 2, n 2) Sb1

Доверительный интервал накрывает значение β1 с вероятностью γ = (1 - α):

P(b1 t(α / 2, n 2) Sb1 < β1 < b1 + t(α / 2, n 2) Sb1 ) =1 α

Аналогично записывается доверительный интервал для коэффициента β0

b0 t(α / 2, n 2) Sb0 < β0 <b0 +t(α / 2, n 2) Sb0

Чем уже доверительный интервал, тем точнее оценка параметра. Если доверительный интервал включает нулевое значение, то оцениваемый параметр статистически незначим (равен нулю).

Обсуждение качества уравнения регрессии. Коэффициент детерминации R2

Зачастую для описания результатов наблюдения (хi, yi), i=1, 2, ..., n можно предложить несколько разных моделей. Какая из них лучшая?

Численную оценку качества модели даёт коэффициент детерминации R2.

R2 показывает какую долю вариации У объясняет уравнение регрессии

У

 

Необъясненная

 

Общая вариация У

моделью часть

 

 

Объясненная часть (обусловленная Х)

У

Линия

регрессии

Х

ХХi