Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ТВиМС.Малярец.Егоршин 22.12.12

.pdf
Скачиваний:
10
Добавлен:
11.06.2015
Размер:
6.76 Mб
Скачать

Аналогично разложению «общего сигнала» на «полезный сигнал» и «помеху» yij = ui + ij разлагается общая сумма квадратов отклонений (SS – summa of squares) на межгрупповую и внутригрупповую суммы квадратов SSY = SSU + SS. Точно так же разлагается общее число степеней свободы dfY = dfU + df (df – degree of freedom).

Расчеты всех компонент сведены в таблицу дисперсионного анализа 1.

Таблица дисперсионного анализа 1 для оценки значимости корреляционной связи

Изменчивость

Суммы

 

ЧСС

 

Средние

Дисперсионное

квадратов

 

 

квадраты

 

отношение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

2

 

 

 

 

 

Между

 

2

 

 

dfU =

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

SSU

SSY

 

 

 

 

 

y

 

 

 

 

 

 

 

 

n

p

 

 

 

 

 

 

 

 

F

 

 

x

 

 

 

y

 

MSU

 

 

 

x

 

SSY

 

 

 

 

группами (u)

 

 

 

= p – 1

 

 

 

 

 

 

 

2

 

 

p

1

 

 

x

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Внутри групп

 

 

 

 

df =

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

SS 1

2

 

SSY

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( )

y

 

= n – p

MS

 

 

 

 

 

x

 

SSY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

n

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общая (y)

 

SSY

 

 

dfY =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= n – 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Здесь dfY = (n – 1), так как вследствие нулевого свойства сумма отклонений от среднего всегда равна нулю; dfU = (p – 1) – по той же причине; df = (n –

– p) , так как суммы ошибок в каждой группе равны нулю.

Средние квадраты (несмещенные оценки дисперсий) вычисляются по формулам MS =SS/df (MS – mean of squares). Дисперсионное отношение Фишера

F

MSU

SSU

n p

показывает, во сколько раз изменчивость средних группо-

MS

SS

p 1

вых ui превосходит изменчивость помехи ij .

Если F < F0,05(p–1; n–p), нуль-гипотеза об отсутствии значимых различий между группами не может быть отвергнута. Различия между группами считаются значимыми, если F > F0,01(p–1; n–p). Вместо таблиц квантилей F0,05 , F0,01 можно использовать таблицы уровня значимости = P(F > F ). Если получилось, что < 0,01 , то это означает F > F0,01 (корреляционная связь значима), а если < 0,01 , то F < F0,05 (корреляционной связи нет).

291

8. Изложите последовательность расчетов для оценки значимости регрессионной модели. Опишите таблицу дисперсионного анализа, разъясните смысл ее отдельных граф. Выразите для этой проблемы дисперсионное отношение через коэффициент детерминации.

Для модели y = yp + e = b0 + b1 x1 + b2 x2 + bm xm + e (линейной относительно параметров) получены МНК-оценки (m + 1) параметра (коэффициентов

регрессии) и коэффициент детерминации R2

 

s 2yp

 

SSR . Аналогично разложе-

2

 

 

 

 

 

 

 

 

 

 

SSY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s y

 

 

 

 

 

 

 

 

 

нию y = yp + e ,

разлагается сумма квадратов отклонений SSY = SSR + SSE и

число степеней свободы dfY = dfR + dfE.

 

 

 

 

 

 

 

 

 

 

 

 

Расчеты всех компонент сведены в таблицу дисперсионного анализа 2.

Таблица дисперсионного анализа 2 для оценки значимости

 

 

 

 

 

 

регрессионной модели

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Изменчивость

 

Суммы

ЧСС

 

 

Средние

Дисперсионное

 

квадратов

 

квадраты

 

отношение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Регрессия

 

SSR

R2

 

SSY

dfR = m

 

MSR

 

R 2

SSY

FR

 

 

R2

n m 1

 

 

 

 

 

 

 

R2

(yp)

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

m

 

1

Остаток

 

SSE

1 R

2

SSY

dfE = n –

 

 

 

1

R 2

 

 

 

 

 

(e)

 

 

m ––1

MSE

 

 

SSY

 

 

 

 

 

 

 

n

m 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общая (y)

 

 

SSY

 

 

dfY = n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Здесь dfE = n m – 1, так как для определения (m + 1) параметра модели на остатки е наложено (m + 1) связей (система нормальных уравнений).

 

MSE – несмещенная оценка остаточной дисперсии: MSE

 

1

R 2

 

SSY

 

 

 

n

m 1

s2

1 R2

 

n

. Дисперсионное отношение Фишера F

 

 

R2

 

 

n

m 1

пока-

 

 

 

 

 

 

 

y

 

n

m 1

R

1

R

2

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

зывает, во сколько раз изменчивость расчетных значений yp

превосходит из-

менчивость помехи e .

 

 

 

 

 

 

 

 

 

 

Если F < F0,05(m; n–m–1), нуль-гипотеза об отсутствии значимой корреляционной связи не может быть отвергнута. Регрессионная модель признается значимой, если F > F0,01(m; n–m–1).

292

9. Опишите методику оценки значимости коэффициента регрессии и коэффициента парной корреляции по критерию Стьюдента. Покажите, что эта методика является частным случаем дисперсионного анализа для оценки значимости линейной одномерной модели.

Выборочная оценка коэффициента парной корреляции rxy с математиче-

ским ожиданием

xy и оценкой дисперсии

2 1

rxy2

для малых

xy 0 распре-

 

r

 

n

2

 

 

 

 

 

 

 

 

 

 

 

 

 

делена

 

приблизительно нормально, поэтому

для

малых xy

статистика

tr

rxy

 

xy

распределена по закону Стьюдента

с ЧСС = n – 2. Проверяется

 

r

 

 

 

 

 

 

 

 

 

 

 

 

 

нуль-гипотеза о

том, что действительное

 

значение

параметра

равно нулю

xy = 0. В этом случае абсолютная величина статистики Стьюдента показывает, во сколько раз параметр (коэффициент корреляции) превышает свою оценку стандартного отклонения.

 

|rxy |

 

 

|rxy |

 

 

 

 

Если статистика tr

 

 

 

 

n 2 будет меньше табличного зна-

 

 

 

 

 

 

 

 

 

 

2

 

r

 

 

 

 

 

 

 

1 rxy

 

 

 

 

чения t0,05(n–2) , нуль-гипотеза не может быть отвергнута.

Корреляционная зависимость признается значимой, если статистика Стьюдента будет больше t0,01(n–2). Сравним статистику Стьюдента с дисперси-

онным отношением Фишера F

rxy2

 

n 2

t 2

и убедимся в эквивалентности

 

 

 

r

1 rxy2

1

r

 

 

 

 

этих двух критериев. Что касается оценок коэффициентов регрессии bi , то они (на основании центральной предельной теоремы) всегда распределены асимптотически нормально, поэтому с помощью критерия Стьюдента можно не только проверить нуль-гипотезу i = М(bi) = 0, но также вычислить границы 95процентного доверительного интервала на генеральные значения коэффициентов регрессии:

b

t

0,05

 

i

b

t

0,05

 

.

i

 

b

i

 

b

 

 

 

 

i

 

 

 

 

i

 

Для линейной однофакторной модели имеем оценку:

 

y

 

 

s y

 

1

rxy2

 

 

 

 

b1

s x

 

s x

 

n

2

 

 

 

 

и значимость коэффициента регрессии b1

оказывается эквивалентной значимо-

 

 

 

 

сти коэффициента корреляции и значимости модели в целом tb

tr

Fr .

 

 

 

 

 

 

 

1

 

 

293

10. Изложите последовательность расчетов для оценки адекватности модели. Опишите таблицу дисперсионного анализа, разъясните смысл ее отдельных граф. Покажите, в чем разница между оценкой дисперсии остатка модели и дисперсией случайной ошибки.

Адекватность (форму связи) принятой модели можно проверить, если имеются дополнительные данные, которые не были использованы для оценки параметров модели (контрольная выборка); или же известна величина дисперсии случайной ошибки, с которой можно сравнить величину дисперсии остатков модели. Дисперсия случайной изменчивости известна, когда данные для каждого значения аргумента x приведены в нескольких повторениях (так называемый активный эксперимент). Можно получить оценку дисперсии случайной изменчивости, если сгруппировать данные на классы по возрастающим значениям аргумента (объясняющей переменной) х. Дисперсию данных внутри групп можно принять за оценку случайной дисперсии. Обозначим через ui средние

 

 

 

 

 

 

2

 

y

xi

в каждой группе,

s2

– их дисперсию,

2

su

– индекс детерминации, ко-

y

2

 

 

u

 

 

 

 

 

 

 

x

sy

 

торый показывает, во сколько раз изменчивость между группами превышает изменчивость внутри групп, то есть во сколько раз изменчивость, связанная с влиянием х, превышает случайную изменчивость. Тогда оценку случайной дис-

 

 

 

 

2

 

2

2

 

 

персии можно выразить как s

 

1

y

s y

. Если рассчитать коэффициент

 

 

 

 

 

 

 

x

 

 

корреляции

по

сгруппированным

 

данным,

то дисперсию остатка

модели

s2

1 r 2

s2

можно сравнивать с оценкой случайной дисперсии.

Остатки

e

xy

y

 

 

 

 

 

 

 

модели, кроме случайной компоненты, содержат ошибку спецификации модели, ошибку неадекватности, систематическую ошибку из-за выбора неверной

формы связи: e = + A, с дисперсией

s2

s2

s2

2

r 2

s2

. Оценку

 

A

e

 

y

xy

y

 

 

 

 

 

 

x

 

 

значимости ошибки неадекватности модели получаем, заполнив таблицу дисперсионного анализа 3, где dfE = n – 2, так как для определения 2-х параметров линейной модели на остатки е наложены две связи (система нормальных урав-

нений); df

= n – p, так как в каждой группе сумма случайных отклонений

ij = (yij – ui) равна нулю (нулевое свойство средних групповых). MS

SS не-

 

 

df

смещенные

оценки дисперсий. Дисперсионное отношение

Фишера

 

294

 

 

2

 

r

2

 

 

 

 

 

y

 

xy

 

 

 

 

 

 

 

n

p

 

FA

 

x

 

 

 

показывает, во сколько раз изменчивость систематической

1

2

 

 

 

p

2

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

ошибки (ошибки неадекватности) превышает случайную изменчивость. Если окажется, что F > F0,01 , то модель признается неадекватной (недоброкачественной).

Таблица дисперсионного анализа 3 для проверки адекватности регрессионной модели

Изменчивость

 

Суммы

 

ЧС

 

 

Средние

 

 

Дисперсионное

 

 

квадратов

С

 

квадраты

 

 

отношение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

 

 

 

 

2

r

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

xy

 

 

 

 

2

2

 

 

 

 

 

y

rxy

 

 

 

 

 

 

 

n

p

 

Неадекват-

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

SSA

y

rxy

SSY

 

MSA

 

x

 

 

 

SSY

FA

 

 

 

 

 

 

 

p – 2

 

 

 

 

1

2

 

 

p

2

 

 

x

 

 

 

 

 

 

 

 

 

 

 

ность (А)

 

 

 

 

 

 

 

 

p

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Случайность

 

 

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

SS

1

2

SSY

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

n – p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( )

y

MS

 

 

 

x

 

SSY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

p

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Остаток

SSE

1

r 2

SSY

n – 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

модели (У)

 

 

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Принятая модель считается адекватной

если

F < F0,05 ,

в этом случае

нуль-гипотеза об отсутствии систематической ошибки не может быть

отверг-

нута.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11. Выведите формулы для расчета параметров парной линейной регрессии. Дайте определение коэффициента парной корреляции, перечислите его свойства. Поясните, что такое коэффициент детерминации, чем он отличается от индекса детерминации.

Для линейной однофакторной модели y = b0 + b1 x + e составляем условия

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ортогональности вектора ошибок к каждому члену модели: e

0; ex 0 . Кроме

этого, учтем, что

 

se2 . Получим:

 

 

 

 

 

 

 

 

 

 

 

ey

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b x b x2

; y2

 

 

 

 

2 .

 

 

y b b x ;

xy

b y b xy s

 

0

1

0

1

 

 

 

0

1

 

 

e

295

С помощью первого уравнения исключаем b0 из остальных равенств:

 

 

 

s

xy

 

b s2

; s2

 

 

b s

xy

s2 .

 

 

 

 

 

 

 

 

 

 

 

1

 

x

 

y

1

e

 

 

 

 

 

 

Отсюда получаем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

sxy

r

 

 

 

s y

;

 

R

2

1

 

 

se2

 

b

sxy

 

r

2

 

.

 

2

 

 

 

 

 

 

 

2

 

2

 

 

 

 

 

1

xy s

x

 

 

 

 

 

 

 

 

1

 

xy

 

 

 

sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s y

 

s y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Из первого уравнения имеем b0

y

 

 

b1x . Квадрат коэффициента парной

корреляции (нормированного смешанного момента) r

 

 

 

sxy

оказался равен

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

sx s y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

s 2p

 

 

 

 

se2

 

 

 

 

 

 

 

 

 

коэффициенту детерминации

R

 

 

 

 

 

 

1

 

 

 

 

, который показывает, какая часть

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s 2y

 

 

 

 

s 2y

 

 

 

 

 

 

 

 

 

полной изменчивости у определяется моделью (линейной зависимостью от х). Отсюда следует, что –1 rxy +1; при | rxy | = 1 ошибок нет (все ei = 0), связь точная, функциональная; при rxy = 0 все y p y , корреляционной связи указан-

ного типа нет (то есть нет линейной связи). В отличие от коэффициента детер-

минации индекс детерминации

2

является более объективной оценкой тес-

y

 

 

x

ноты корреляционной связи; если индекс детерминации равен нулю, корреляционной связи нет (никакой). Для определения индекса детерминации требуется сгруппировать данные на классы с разными значениями аргумента хi , вы-

числить средние в каждой группе

u

 

 

 

, дисперсию этих средних

s2

, после

i

y

xi

 

 

 

 

 

 

 

u

 

 

2

su2

 

 

 

 

 

 

 

чего найти отношение

y

 

, которое показывает, какая часть полной из-

 

 

x

s 2y

 

 

 

 

 

 

 

менчивости y определяется различиями между классами (то есть разными значениями аргумента х).

12. Перечислите основные предпосылки регрессионного анализа. Сформулируйте идею принципа максимального правдоподобия и покажите, что по этому принципу наилучшими оценками параметров модели будут МНК-оценки.

Предпосылки регрессионного анализа: 1) y(xi) = yp(xi) + ei (все ошибки относятся только к результативной переменной у, объясняющие переменные х измерены без ошибок); 2) М(ei) = 0 – систематических ошибок нет, выбранная модель адекватная; 3) М(еiej) = 0 – ошибки разных наблюдений не коррелиро-

296

ваны (наблюдения независимые); 4) M e2

 

 

2

 

 

Const – наблюдения равно-

 

 

 

 

 

 

 

 

i

 

 

e

 

 

 

 

 

 

 

 

 

 

точные; 5)

ошибки распределены

нормально.

Отсюда

получаем

плотность

вероятности для отдельных ошибок fi f

ei

 

 

 

1

 

exp

 

ei2

 

и плотность

 

 

 

 

 

 

2 e2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e

 

 

 

совместного

распределения

 

 

системы

 

 

 

 

независимых

 

ошибок

 

 

 

 

1

 

 

 

 

e2

 

 

 

 

 

 

 

 

 

 

 

f e1 ,e2 ,...,en

f1 f2 ...fn

 

 

 

 

exp

 

i

 

. Согласно принципу максимума

 

 

 

n

n

 

2

 

 

 

 

2

 

 

2

e

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

правдоподобия, параметры модели (и оценку дисперсии

e2 ) надо выбрать так,

чтобы получить максимум функции распределения f (наблюдаемая система ошибок ei должна быть наиболее вероятной). Из условий максимума плотности совместного распределения следует метод наименьших квадратов (параметры модели необходимо определять из условий минимума e2), а оценка дисперсии

случайной ошибки оказывается равной se2 e2 .

13. Сформулируйте идею расчета дисперсий коэффициентов регрессии и дисперсий расчетных значений. Опишите графический способ построения 95-процентной доверительной полосы на линию регрессии.

Согласно предпосылкам регрессионного анализа, все объясняющие переменные х считаются измеренными точно, все случайные ошибки относятся только к результативному признаку у. Эти ошибки независимые, равноточные (имеют одинаковую дисперсию для любых наблюдений), систематических ошибок нет (то есть М(ei) = 0). МНК-оценки коэффициентов регрессии являются линейными комбинациями значений результативной переменной уi с неслучайными коэффициентами, отсюда можно получить выражение ошибки коэффициента регрессии как комбинацию ошибок наблюдений и вычислить ее дисперсию (дисперсия суммы независимых величин равна сумме дисперсий, неслучайные множители возводятся в квадрат).

Так, для линейной однофакторной модели коэффициент регрессии вы-

числяется по формуле b1

s xy

1

xi

x yi , откуда получаем выражение

s x2

 

ns x2

 

 

 

 

 

 

 

случайной ошибки коэффициента регрессии в виде

1

xi

x ei , где х и sx

nsx2

 

 

 

 

 

 

 

 

не случайные.

297

 

2

2

 

2

2

 

 

2

 

 

e

 

y

 

s y

1

rxy

Дисперсия этой ошибки равна

b1

 

 

 

 

 

 

 

 

.

nsx2

 

s x2

 

sx2

 

n

2

 

Теперь

 

рассмотрим

случайную

дисперсию

расчетных

значений

y p

y

b1

x

x как линейную комбинацию случайных величин y и b1 с уже

известными дисперсиями

2y ,

2 и нулевой ковариацией y ,b

0 .

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

В результате получим

2

2

x x 2

.

 

 

 

 

 

y 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y x

 

sx2

 

 

 

 

 

Как функция х это равенство является уравнением сопряженной гипербо-

лы Y 2

b2

1

 

X 2

, сдвинутой вправо на величину x

с полуосями

а = sx и

 

a 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

s y

 

1

rxy2

 

.

 

 

 

 

 

 

 

 

y

 

 

n

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Достаточно построить только каркас доверительной полосы на линию регрессии.

На интервале x sx ширина доверительной полосы практически посто-

янна и равна удвоенной ошибке среднего t0,05

y

2 y ; строим на линии ре-

грессии параллелограмм с такими границами; далее доверительная полоса расширяется, приближаясь к продолжениям диагоналей построенного параллелограмма.

14. Поясните способ выбора формы связи. Продемонстрируйте возможности обобщенной линейной модели, нелинейной по аргументам, но линейной по параметрам. Рассмотрите стандартные преобразования переменных (логарифмирование и переход к обратным величинам).

Для МНК важно, чтобы форма связи была линейной относительно параметров (а не относительно х), тогда система нормальных уравнений для определения параметров будет линейной.

Общий вид двухпараметрических моделей, линейных относительно параметров, имеет вид:

Y = a + b X ,

где Y = F(x, y); X = Ф(х, у).

298

Если эмпирические точки в преобразованных координатах (X, Y) не группируются вокруг некоторой прямой, то принятая форма связи должна быть отвергнута (надо подбирать другую, более подходящую).

Чаще всего применяется или логарифмирование переменных, или переход к обратным величинам, что дает дополнительно 7 нелинейных моделей, приведенных ниже.

Двухпараметрические зависимости Y(y) = a + b X(x)

Преобразования

 

X = x

X = ln x

X = 1/x

 

 

 

 

 

Линейная

Логарифмическая

Гиперболическая

Y = y

y = a + b x

y = a + b ln x

 

1

 

 

 

 

 

 

 

 

 

 

 

y = a + b / x

 

 

 

 

 

 

 

 

 

 

 

 

Y = ln y

Показательная

Степенная

S-образная

ln y = a + b x

ln y = a + b ln x

ln y = a + b / x

g2 = y2

y = A eb x

y = A xb

y = A eb / x

 

 

 

 

 

 

 

 

 

 

Гиперболическая

 

Гиперболическая

Y =

1

 

 

2

 

 

 

3

 

/y

 

 

 

 

 

 

 

 

 

g

2

= y

4

1 / y = a + b x

 

1 / y = a + b / x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

1

 

 

y

 

x

 

 

 

 

 

 

 

a bx

 

 

ax b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если применяется функциональное преобразование результативной переменной, желательно во всех расчетах заменить обычные средние на средние взвешенные с весовой функцией g2, то есть вместо обычных средних

X , Y , X 2 , Y 2 , XY надо использовать взвешенные средние:

X

 

 

g 2 X

; Y

 

 

 

g 2Y

;

XX

 

 

g

2 X 2

;

cp

 

 

 

 

 

 

 

cp

 

 

 

 

 

 

g 2

 

cp

 

 

 

g 2

 

 

 

 

g 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

YY

 

 

g 2Y

2

;

XY cp

g 2 XY

 

.

 

 

 

 

cp

 

g 2

 

g 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

299

Использованная литература

Вентцель Е. С. Теория вероятностей / Вентцель Е. С. – М. : Наука, 1969. –

576 с.

Смирнов Н. В. Курс теории вероятности и математической статистики для технических приложений / Н. В. Смирнов, И. В. Дунин-Барковский. – М. :

Наука, 1969. – 512 с.

Гмурман В. Е. Теория вероятностей и математическая статистика / Гмурман В. Е. – М. : Высшая школа, 2000. – 480 с.

Егоршин А. А. Корреляционно-регрессионный анализ. Курс лекций и лабораторных работ / А. А. Егоршин, Л. М. Малярец. – Х. : Основа, 1998. – 208 с.

300