Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ТВиМС.Малярец.Егоршин 22.12.12

.pdf
Скачиваний:
10
Добавлен:
11.06.2015
Размер:
6.76 Mб
Скачать

14. Обоснуйте условия, необходимые для корректного применения критерия Пирсона (учесть особенности распределения Бернулли – Пуассона – Лапласа).

k

~

n , для чего рас-

Прежде всего обеспечиваем выполнение условия

mi

i 1

 

ширяем границы крайних интервалов (если требуется, до

 

). Число интерва-

лов должно быть достаточно большим, чтобы в каждый интервал попало не бо-

лее 10 % наблюдений, то есть

~

0,1. Тогда частоты mi в каждом интервале

pi

будут распределены по закону

Пуассона с характеристиками ai npˆi mˆ i ;

~

~

 

 

Di npi

mi . С другой стороны, предполагается, что в каждый интервал попа-

дает не менее 5-ти наблюдений, для чего малонасыщенные интервалы укрупняем (объединяем с соседними). Тогда распределение Пуассона будет близким к распределению Лапласа (нормальному распределению), стандартизованные ве-

личины

mi

i

будут распределены нормально с нулевым математическим

 

 

 

 

i

 

 

 

ожиданием и единичной дисперсией, следовательно, сумма квадратов этих ве-

 

k

mi

i

2

 

 

 

 

 

 

 

2

 

 

личин

 

 

 

будет иметь распределение Пирсона

. Несколько противо-

i 1

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

~

 

~

 

 

 

 

речивые требования

 

mi

 

5 могут быть удовлетворены только

pi

 

 

0,1;

mi

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для больших выборок n

 

 

 

 

 

 

~

0,1

200. Для выборок меньшего размера условие pi

не выполняется, частоты mi в каждом интервале распределены по биномиаль-

 

~

~

 

 

 

 

~ ~

 

~

~

 

 

ному закону с характеристиками

 

 

 

 

 

mi

 

и в ста-

ai npi

mi ;

Di

npi qi

mi (1

 

)

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

k

 

mi

 

~

2

 

 

 

 

 

 

 

 

 

 

mi

 

 

 

 

тистике Пирсона следует учесть поправку:

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

~

 

 

mi

 

 

 

 

 

 

i

 

1mi

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15. Покажите, как определяются границы 90-процентного доверительного интервала на генеральную дисперсию с помощью распределения Пирсона.

Если Х распределено нормально, то статистика

xi x 2

 

n sx2

распреде-

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

x

лена по закону Пирсона 2

с ЧСС = n – 1, потому с вероятностью 90 % она

заключена в пределах

2

 

 

2

 

, откуда получаем 90-процентные границы на

0,95 ;

 

0,05

 

 

 

n

2

2

n

2

 

 

 

 

дисперсию совокупности:

 

 

 

sx

x

 

sx .

 

 

 

 

 

2

 

2

 

 

 

 

 

 

 

0,05

 

 

0,95

 

 

 

 

 

281

16. Дайте понятие о критерии согласия Колмогорова – Смирнова.

Простой критерий Колмогорова – Смирнова основан на сравнении кумуляты с интегральной функцией теоретического закона. Найдем максимальное

расхождение

ˆ

K

n D окажется больше

D max | Fi Fi |. Если статистика

1,63 , теоретический закон отвергается, а если 1,36 – принимается. Корректное применение критерия предполагает, что известны параметры теоретического закона, а не определять их по выборочным данным (как в критерии Пирсона).

17. Дайте понятие о нормальной вероятностной кривой, покажите, как она строится и применяется.

Для визуальной проверки соответствия нормальному распределению применяется графический метод, который основан на сравнении кумуляты и интегральной функции нормального закона. На краях укрупненных интервалов si (в которые должно попасть не менее 5-ти наблюдений) определяются ординаты кумуляты F(si); предполагается, что эти значения порождены нормальным законом распределения F(si) = (ti) + 1/2 , откуда находят значения (ti) = F(si) – 1/2 ; далее по таблице интегральной функции Лапласа находят соответствующие ti и строят график si – ti . Для нормального закона этот график представляет

 

 

si

x

 

 

 

собой прямую

ti

, или si

x sxti . Если точки (si , ti ) явно не группиру-

sx

 

 

 

 

 

 

 

ются вокруг некоторой прямой, гипотеза о нормальности распределения отклоняется. В таком случае вид графика нормальной вероятностной кривой подсказывает, после какого функционального преобразования переменной распределение будет более близким к нормальному.

18. Опишите особенности нормального закона распределения, его параметры и характеристики, дифференциальную и интегральную функции, структуру таблиц, область применения.

Нормальное распределение Гаусса является наиболее распространенным законом природы и занимает среди других распределений особое положение. Применения его настолько разнообразны, что перечислить их практически невозможно. В частности, выборочное среднее распределено асимптотически нормально (или по близкому к нему распределению Стьюдента для малых выборок).

282

Дифференциальная функция нормального закона f (x) (плотность вероятности) выражается через дифференциальную функцию Лапласа (tx), которая затабулирована:

f x

t x

, t

x

x a

,

t

 

1

 

e

t 2 2 .

 

 

 

 

 

 

 

2

 

x

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Интегральная функция нормального закона F (x) виражается через другую затабулированную функцию (tx) – интегральную функцию Лапласа:

 

 

 

1

 

 

x a

 

 

t

1

 

t

 

s

2

F x

t

x

, t

x

,

t

s ds

 

 

 

e

2 ds .

 

 

 

 

 

2

 

2 0

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Два параметра закона – a,

x – являются основными характеристиками рас-

пределения: а = M(x),

x2 = D(x).

Основные особенности нормального закона –

одномодальность, симметричность, правило «2-х сигм».

 

 

 

 

 

 

19. Опишите особенности равномерного закона распределения, его параметры и характеристики, дифференциальную и интегральную функции, область применения.

По закону равномерной плотности (равномерный закон) распределены ошибки округления, время ожидания транспорта, который движется по графику строго через равные интервалы времени, и т. д.

Дифференциальная функция этого распределения постоянна на интервале [a, b] и равняется нулю за его пределами. Интегральная функция линейна на интервале [a, b]:

 

0

 

x

a

 

 

0

 

 

x

a

f x

1

 

a x b ;

F x

x

a

a x b .

b

a

b

a

 

 

 

 

 

 

 

 

 

0

 

x

b

 

 

1

 

 

x

b

Параметрами закона являются границы интервала a, b . Характеристики

выражаются через эти параметры: M x

a b

; D x

 

 

 

b a 2

.

2

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

20. Опишите особенности показательного закона распределения, его параметры и характеристики, дифференциальную и интегральную функции, область применения.

По показательному закону распределено время работы оборудования до первого отказа, время ожидания вызова на АТС и т. д. Дифференциальная

283

функция показательного закона для x 0: f (x) = e– x. Интегральная функция (для x 0):

F(x) = 1 – e– x.

Единственный параметр закона – .

Основная черта показательного закона – равенство основных характери-

стик:

M(x) = x = 1/.

Коэффициент вариации vx = 100 % .

5. Опишите особенности логнормального закона распределения, его параметры и характеристики, область применения.

Случайная величина распределена по логарифмически нормальному закону, если ее логарифм y = ln x распределен нормально.

Основная область применения логнормального закона – социологические и экономические исследования. В частности, этим законом хорошо описываются распределения таких экономических показателей, как доход, заработная плата, потребительский спрос.

Если случайная величина y = ln x распределена нормально с характери-

 

 

 

 

 

 

 

 

 

 

 

 

стиками

0 = М(у) и

0

D y , то этот

факт

кратко обозначается как

у ~ N( 0;

0).

 

 

 

 

 

 

 

 

 

 

При этом величина х > 0 имеет логнормальное распределение с этими же

параметрами, что кратко обозначается как x ~

( 0;

0).

 

 

 

 

 

 

 

 

 

 

 

 

Характеристики нормального распределения

у (

0 = М(у),

0

D y )

 

 

 

 

 

связаны с характеристиками исходного показателя х (

х = М(х),

x

D x )

достаточно простыми соотношениями, так что нет необходимости заново определять характеристики после логарифмирования. Как и гамма-распределение, логнормальное распределение скошено влево.

284

Регрессионный анализ в вопросах и ответах

1. Дайте определение функциональной, статистической и корреляционной зависимостей. Продемонстрируйте различия между сопряженными корреляционными моделями. Приведите пример статистической, но не корреляционной зависимости.

По определению функциональной зависимости, каждому значению аргумента (набору значений аргументов) соответствует единственное значение результативного признака. В стохастических (статистических) зависимостях каждому значению аргумента соответствует свой ряд распределения результативного признака. Частным случаем стохастической зависимости является корреляционная зависимость, когда следят за изменением только одной характеристики распределения результативного признака – центром группировки Y при каждом значении X (то есть за изменением условного математического ожидания M(y x) при изменении аргумента x). График корреляционной зависимости называется также линией регрессии, а ее уравнение – уравнением регрессии. Для корреляционных, как и для функциональных зависимостей, имеет место однозначное соответствие между значениями аргумента и откликом (средними значениями результативной переменной yx ). Однако между этими видами зависимостей остается принципиальное различие – корреляционные зависимости необратимы относительно замены направления причинно-следственных связей. В наиболее распространенном случае совместного нормального распределения двух случайных величин (X, Y) облако рассеяния точек (X,Y) имеет форму вытянутого эллипса. Линия регрессии yx представляет собой диаметр этого эллипса, сопряженный семейству вертикальных хорд (середины вертикальных хорд). Если же в качестве результативного признака выбрана другая переменная X (y – причина, x – следствие), то линия регрессии представляет собой диаметр эллипса, сопряженный семейству горизонтальных хорд (середины горизонтальных хорд xy ). Это совсем разные диаметры (разные корреляционные

зависимости не только по аналитической форме записи, но и по существу, так называемые сопряженные регрессии). Существуют также стохастические, но не корреляционные зависимости, когда при изменении аргумента Х изменяется не центр группировки Y, а другие характеристики распределения отклика, например изменчивость (дисперсия).

285

2. Разъясните смысл термина «диагональная регрессия». Поясните, является ли диагональная регрессия регрессией вообще (согласно определению этого понятия), в каких случаях целесообразно использовать эту модель.

Наличие связи вовсе не означает, что одна из переменных определяет другую. Вполне возможно, что две переменные изменяются синхронно («в такт») потому, что обе они являются следствиями некой общей причины. В этом случае неверно будет приписывать какой-либо из этих переменных роль результативного признака и выбирать соответствующую связь из числа взаимно сопряженных; наилучшим графиком существующей зависимости в этом случае была бы главная ось эллипса рассеивания, вдоль которой он вытянут.

Заметим, что уравнение главной оси облака рассеивания формально не является уравнением регрессии по определению, поскольку точки главной оси не есть средние значения одной переменной при фиксированных значениях другой.

Уравнением этой диагональной регрессии является:

y

y

 

x x

,

 

 

 

s y

 

 

 

 

sx

где знак «+» выбирается для возрастающей, а знак «–» для убывающей зависи-

мости.

 

 

 

 

 

 

 

 

 

 

 

 

Для

 

сравнения приведем здесь же уравнение

регрессии

 

(y / x):

 

y y

r

x x

и уравнение сопряженной регрессии (x / y):

x x

r

y

y

.

 

s

 

s

 

s

 

s

 

 

y

xy

x

 

x

xy

y

 

 

 

 

 

 

 

 

3. Сформулируйте идею принципа Лежандра (МНК), разъясните смысл системы нормальных уравнений, составьте систему нормальных уравнений для линейной и квадратичной моделей с одной объясняющей переменной.

По методу наименьших квадратов (МНК) параметры модели y = a0 + a1x1 + a2x2 + e необходимо подбирать таким образом, чтобы была минимальной сумма квадратов ошибок (e) по всем наблюдениям.

Условия минимума суммы квадратов ошибок е2 приводят к требованию ортогональности (нормальности) вектора ошибок к каждому члену модели:

e = 0, ex1 = 0, ex2 = 0.

Отсюда получаем такую систему «нормальных» уравнений для определения параметров:

286

y = a0n + a1

x1 + a2 x2 ;

yx1 = a0

x1 + a1 (x1)2 + a2 x1x2 ;

yx2 = a0

x2 + a1

x1x2 + a2

(x2)2 .

Для квадратичной модели y = a0 + a1x + a2x2 + e условия ортогональности

ошибки к каждому члену модели

e = 0,

ex = 0,

ex2 = 0 приводят к такой

нормальной системе уравнений:

 

 

 

y = a0n + a1 x + a2

x2 ;

yx = a0 x + a1 x2 + a2

x3 ;

yx2 = a0 x2 + a1 x2 + a2 x3 .

4. Сформулируйте основные предпосылки дисперсионного анализа. Докажите, что средние по группам являются наилучшими МНК-оценками центров каждой группы. Разложите общую сумму квадратов на межгрупповую и внутригрупповую составляющие.

Имеется p групп наблюдений yij . Группы описываются значениями некоторого фактора, например разными значениями объясняющей переменной xi . Количество наблюдений в каждой группе – ki , общее количество наблюдений – n = ki . Необходимо выяснить, имеются ли между группами значимые различия (то есть имеется ли зависимость у от х). Оценку значимости различий между группами в целом производят с помощью дисперсионного анализа Фишера, а между каждой парой групп – по критерию Стьюдента. Модель дисперсионного анализа имеет вид: yij = ui + ij . Основные предпосылки анализа – группы различаются только средними значениями ( yxi ), изменчивость данных

(дисперсия) по группам одинакова, все наблюдения независимые.

Величины ui , которые характеризуют каждую группу, определяем методом наименьших квадратов (МНК):

p ki

2

k1

 

2

k2

 

 

2

 

k p

 

 

 

 

 

 

 

2

 

 

 

y

u

y

2 j

u

 

y

pj

u

p

 

min .

 

ij

1 j

1

 

 

 

2

 

 

 

 

 

 

 

 

i 1 j

1

j 1

 

 

j 1

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

Приравниваем нулю частные производные суммы квадратов ошибок по

 

ki

 

 

 

 

 

 

 

 

1

 

ki

 

 

 

 

 

 

ui и получаем

2

yij

ui

0 ,

откуда

следует:

ui

 

 

yij

 

 

yx

, то есть

k

 

 

 

 

 

 

j

1

 

 

 

 

 

 

 

 

i

 

j

1

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

наилучшими оценками для ui

являются средние групповые

yx

i

.

Для каждой

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

287

 

 

 

 

 

 

 

 

 

 

 

 

ki

 

 

 

 

 

группы

теперь

выполняется

нулевое

свойство:

ij

0 ,

откуда

 

0 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

u y ycp .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Аналогично разложению yij = ui + ij

разлагается сумма квадратов откло-

нений SSY = SSU + SS

, где SSY =

(yij ycp)2 – общая сумма квадратов откло-

нений;

SSU =

 

 

(ui ycp)2

– сумма

квадратов

отклонений между группами;

SS

=

( ij)2 – сумма

квадратов отклонений

внутри групп.

Действительно,

SSY =

(yij ycp)2 =

[(yij - ui) –(ui ycp)]2 = SS

+ SSU – 2

 

[(yij ui) (ui ycp)],

где сумма произведений

[(yij ui) (ui ycp)] =

(ui ycp)

 

(yij ui) равна нулю,

так как в каждой группе

(yij ui) = 0. Точно также разлагается общее число

степеней свободы dfY = dfU + df

(df

degree of freedom),

где dfY = n – 1,

dfU = p – 1, df

 

= n – p. Средние квадраты (несмещенные оценки дисперсий)

вычисляются

по

 

формулам

MS =SS/df .

Дисперсионное

 

отношение Фишера

 

MSU

SSU

 

n

p

 

 

 

 

 

 

 

 

 

 

 

F

 

 

 

 

 

показывает, во сколько раз изменчивость средних группо-

MS

SS

 

p

1

вых ui превосходит изменчивость помехи ij . Если дисперсионное отношение окажется меньше табличного значения F < F0,05(p–1; n–p), нуль-гипотеза об отсутствии значимых различий между группами не может быть отвергнута. Различия между группами считаются значимыми, если F > F0,01(p–1; n–p).

5. Опишите методику сравнения двух выборок по критерию Стьюдента. Сформулируйте основные предпосылки (гипотезы) этого метода. Покажите, что этот анализ является частным случаем дисперсионного анализа, когда количество сравниваемых групп равно двум.

Когда с помощью дисперсионного анализа установлено, что между группами в целом имеются значимые различия, далее следует выяснить, между какими именно группами имеются значимые различия. Различия между каждой парой групп можно проще (и быстрее) проверить с помощью критерия Стьюдента. Предпосылки этого анализа совпадают с предпосылками дисперсионного анализа – группы различаются только значениями средних групповых (u1 , u2); случайная изменчивость данных по группам одинакова ( s12 s22 ); все наблюдения независимые.

288

Общую случайную дисперсию (несмещенную оценку) получаем объеди-

нением дисперсий по группам:

2 k1s12

k2 s22

, где df =(k1 + k2 – 2) – ЧСС слу-

 

k k

2

2

 

 

 

 

1

 

 

чайной изменчивости (две связи, так как в каждой группе суммы ошибок равны нулю). Случайная дисперсия среднего ui будет в ki раз меньше. Рассматриваем разность средних групповых = |u1 u2|. Дисперсия разности независимых ве-

личин равна сумме их дисперсий

2 k1s12

k2 s22

1

1

. Если статистика

 

k1

k2 2

 

k1

 

k2

 

 

 

 

 

 

 

Стьюдента t

 

меньше табличного значения t0,05(k1+k2–2), нуль-гипотеза

об отсутствии значимых различий между двумя группами не может быть отвергнута. Различия между группами считаются значимыми, если t > t0,01(k1+k2–2). Применение дисперсионного анализа для выявления различий между двумя выборками (р = 2) приведет к тому же выводу, так как F (1; n 2) t 2 (n 2) .

6. Покажите, как строится эмпирическая линия регрессии, как оценивается теснота корреляционной связи. Поясните, что такое индекс детерминации и корреляционное отношение, чем они отличаются от коэффициента детерминации и коэффициента корреляции соответственно.

Данные следует сгруппировать на несколько интервалов по возрастающим значениям объясняющей переменной так, чтобы в каждую группу попало не менее 5-ти наблюдений (для малой выборки – не менее 5 % наблюдений); малонасыщенные группы объединяем с соседними. Обозначим через xi центры интервалов, yij – значения отклика (результативной переменной) в группе, ki – количество наблюдений в группе, n = ki – общее количество наблюдений. В каждой группе вычисляем среднее значение результативной переменной

 

 

 

 

 

 

1

ki

ui

yx

 

, где

yx

 

yij . Строим кусочно-линейный график с узлами (xi ; ui ),

i

i

k

 

 

 

 

 

 

i

j 1

 

 

 

 

 

 

 

который называется эмпирической линией регрессии. В модели дисперсионного анализа предполагается, что группы различаются только средними значениями отклика: yij = ui + ij , где ij – случайные ошибки, которые не зависят ни от xi , ни от ui . Дисперсия суммы независимых случайных величин равна сумме

 

2

 

2

 

2

 

2

su2

s 2

дисперсий s

y

s

u

s

 

. Обозначим

y

 

1

 

– относительный вклад в

 

 

 

 

 

 

 

 

s 2y

s 2y

 

 

 

 

 

 

 

x

общую дисперсию, который определяется различиями между группами (то есть

289

влиянием объясняющей переменной х). Эту величину называют индексом де-

терминации, а корень квадратный из нее y

– корреляционным отношением.

x

 

 

 

 

 

Из определения индекса детерминации следует: 0

2

1; при

2

1 все

y

y

 

 

x

 

 

x

ij = 0, то есть каждому значению аргумента xi

соответствует единственное зна-

чение отклика уi , что является характерной особенностью функциональной за-

висимости; при

2

0 все yx

 

Const , то есть корреляционной связи нет

y

i

 

x

 

 

 

 

 

 

(никакой). Таким образом, индекс детерминации является объективной мерой тесноты корреляционной связи.

В регрессионном анализе принимают иную модель: yi = ypi + ei , где ypi – расчетные значения по уравнению регрессии, ei – остатки модели, которые не

зависят от аргументов (и от расчетных значений). Поэтому s2y s2p

se2 . Отно-

шение R

2 s 2p

1

se2

 

 

 

 

называется коэффициентом детерминации,

а корень

 

 

 

 

 

s 2y

 

s 2y

 

квадратный из этой величины – коэффициентом корреляции (коэффициентом парной корреляции rxy – если зависимость линейная от одного аргумента, или коэффициентом множественной корреляции R – в остальных случаях). Коэффициент детерминации является мерой тесноты корреляционной связи указанного типа. Например, если для линейной модели yp = b0 + b1 x оказалось R2 0, то нельзя утверждать, что нет корреляционной связи вообще; правильный вывод – между x и y нет линейной корреляционной зависимости.

7. Изложите последовательность расчетов для оценки значимости корреляционной связи. Опишите таблицу дисперсионного анализа, разъясните смысл ее отдельных граф (столбцов) – сумм квадратов, чисел степеней свободы, средних квадратов. Поясните, какой смысл имеет дисперсионное отношение Фишера, что такое уровень значимости и как им пользоваться.

Данные сгруппированы на р интервалов по возрастающим значениям объясняющей переменной х. В каждой группе вычислены средние значения ре-

зультативного признака ui

yxi , подсчитаны значения: s2y

SSY n – общей дис-

персии,

2

SSU

 

– дисперсии средних групповых, их отношение

2

su2

su

 

n

y

 

 

 

 

 

 

 

x

s 2y

индекс детерминации.

290