Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методичка теория вероятности с типовыми заданиями (Силкин)

.pdf
Скачиваний:
95
Добавлен:
17.01.2018
Размер:
710.78 Кб
Скачать

520

ножим обе части неравенства M (X ) xср β на положительную величину

n

:

 

 

 

 

 

 

 

 

 

 

 

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

M (X )

x

ср

 

 

 

 

n

 

 

P

 

 

 

 

 

 

β

 

 

β.

 

 

 

 

 

 

 

S

 

 

 

 

 

 

 

 

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пользуясь обозначением (8.8.1) и проводя определенные преобразования, перейдем к двойному неравенству:

Т Sn М( Х) хср Т Sn ,

хср Т Sn М(Х) Т Sn хср.

Таким образом, если выбрать конкретное значение величины распределения Стьюдента tk, то доверительный интервал для математического ожи-

дания принимает вид:

хср β М(Х) хср β,

где β tkSn .

Для построения доверительного интервала для дисперсии используют распределение χ2 . Вид этого закона распределения очень сложен, поэтому

значения распределения представлены в таблице. Они зависят от числа степеней свободы и от доверительной вероятности.

Доверительный интервал для дисперсии имеет вид

(n 1) S 2

(n 1) S2

 

 

D(X )

 

 

.

χ2

 

χ2

 

α

α

n 1;

2

 

n 1;1

2

 

 

 

 

 

Пример. Построить доверительные интервалы для математического ожидания и дисперсии, рассматривая 16 измерений случайной величины, распределенной по нормальному закону, если получены оценки математического ожидания и дисперсии:

хср 12,51; S2= 0,91.

Решение. Найдем значение распределения Стьюдента по таблицам приложения 6 (Гмурман В.Е. Теория вероятностей и математическая статистика.) для числа степеней свободы k= n-1=16-1 и доверительной вероятности β=0,95 (уровня значимости α=0,05):

t15;0,05 2,13.

Тогда

521

β 2,13

0,91

0,508.

16

 

 

Доверительный интервал для математического ожидания принимает

вид

12,51− 0,508 < M(X) < 12,51 + 0,508,

12,002 < M(X) < 13,018.

По таблицам приложения 5 (Гмурман В.Е. Теория вероятностей и математическая статистика.) найдем значения распределения χ2 :

χ2

α χ15;0,0252

27,5;

χ2

 

α χ15;0,9752

6,26.

n 1;

2

 

n 1;1

2

 

 

 

 

 

 

 

 

Доверительный интервал для дисперсии:

 

 

 

 

15 0,91 D(X )

15 0,91

,

 

 

27,5

 

 

6,26

 

 

0,496 < D(X) < 2,181.

522

ЛЕКЦИЯ 8.8. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

8.8.1.Элементы корреляционного анализа

Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от другой случайной величины X.

Две случайные величины могут быть связаны либо функциональной зависимостью, либо статистической зависимостью, либо быть независимыми. Строгая функциональная зависимость реализуется редко, так как обе случайные величины или одна из них подвержены действию случайных фак-

торов, в этом случае возникает статистическая зависимость. Статистической называют зависимость, при которой изменение од-

ной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой; в этом случае статистическую зависимость называют корреляционной.

Значения случайных величин X и Y записывают в виде таблицы, кото-

рую называют корреляционной таблицей (табл. 8.8.1)

 

 

 

 

 

Таблица 8.8.1

Y

 

 

X

 

m*y

x1

x2

xk

y1

m*

m*

m*

m*y1

 

11

12

 

1k

 

y2

m21*

m22*

m2*k

m*y2

yl

m*

m*

m*

m*yl

 

l1

l2

 

lk

 

 

 

 

 

 

k l

m*х

m*x1

m*x2

m*xk

n mij*

 

 

 

 

 

i 1 j 1

Для оценки связи между случайными величинами обычно используется выборочный коэффициент корреляции.

Введем в рассмотрение выборочный корреляционный момент

 

1

 

l k

 

 

 

 

 

kx*y

 

xi xср y j yср mij*

.

n 1

 

j 1 i 1

 

 

 

 

 

 

Удобнее использовать для вычислений выборочного корреляционного момента следующую формулу:

 

1

 

 

l k

 

 

 

 

kxy*

 

 

xi y j m*xy n xср yср .

n 1

 

j 1 i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

523

Выборочный коэффициент корреляции представляет собой отноше-

ние:

 

 

k*

 

r*

 

xy

,

 

xy

 

Sx S y

 

 

 

 

где Sx и Sy − выборочные средние квадратичные отклонения случайных величин X и Y соответственно.

Выборочный коэффициент корреляции измеряет силу (тесноту) линейной связи между величинами X и Y.

Пример. Найти выборочный коэффициент корреляции по данным корреляционной таблицы

Таблица 8.8.2

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

m*y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

20

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

28

 

 

 

 

 

6

 

38

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

6

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m*х

 

 

 

 

 

10

 

 

 

 

 

 

 

28

 

 

 

 

 

12

 

n=50

Решение

. Найдем оценки числовых параметров распределения.

Выборочные средние:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ср

1 xi mi*

 

1

10 10 20

28 30 12 20,4;

 

 

х

 

 

50

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ср

 

1 y j m*j

 

1

15 38

25 12 17,4.

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n j 1

 

 

 

50

 

 

 

 

 

 

 

 

 

Несмещенные выборочные дисперсии:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

3

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mi* n xср

 

 

 

Sx2

 

 

 

 

 

xi 2

 

 

 

 

 

 

n

1

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

102 10 202

28 302 12 50 20,4 2 44,74;

 

49

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sy2

 

 

 

 

y j 2 m*j n yср 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

152

38 252 12 50 17,4 2 18,61.

 

 

 

 

 

 

 

 

49

Выборочные средние квадратичные отклонения:

 

 

 

 

Sx

 

Sx2

 

44,74 6,69; S y

 

 

S y2

18,61 4,31.

Выборочный корреляционный момент:

 

 

 

 

 

 

 

 

 

 

524

 

 

 

1

 

2 3

 

 

 

 

 

kxy*

 

xi yj m*xy n xср yср

 

n 1

 

j 1 i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

491 10 15 4 20 15 28 30 15 6 10 25 6 30 25 6 50 20,4 17,4

0,98.

Таким образом, выборочный коэффициент корреляции равен:

r*

 

kxy*

 

0,98

0,034.

 

 

 

xy

 

Sx S y

 

6,69 4,31

 

 

 

 

 

Выборочный коэффициент корреляции приближается к нулю, поэтому зависимость между случайными величинами не является линейной, она может быть выражена какой-либо иной зависимостью.

8.8.2.Регрессионный анализ

Любую систему можно представить в виде «черного ящика»

(рис.8.8.1):

 

ε1

ε2

εk

x1

 

 

 

y1

 

 

 

x2

 

 

 

y2

 

 

 

 

xn

 

 

 

ym

 

 

 

 

 

 

 

 

Рис.8.8.1

Обозначения на рис.8.8.1: xn входные параметры; ym выходные параметры;

εk воздействие трудно учитываемых факторов (возмущений). Поставим задачу: изучить зависимость между входными X и выходны-

ми Y параметрами в виде математической модели. В качестве математической модели могут выступать различные уравнения, системы уравнений, дифференциальные уравнения и их системы. Если поставлена задача, о выявлении зависимости в виде некоторой функции Y f X , то она является за-

дачей регрессионного анализа, а полученные зависимости линиями регрес-

сии.

Пусть произведено n опытов, в которых наблюдались изменения как случайной величины X, так и Y. В результате эксперимента получено n пар наблюдений (xi; yi) (рис. 8.8.2).

525

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

отклонение

 

 

yi

 

 

 

 

 

Y=f(X)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

X

Рис.8.8.2

Нас интересует функция, которая бы приблизительно описывала зависимость между величинами. По опытным данным можно построить несколько линий регрессии. Возникает вопрос, какая линия наилучшим образом воспроизводит зависимость между X и Y. Для решения подобных задач обычно применяется метод наименьших квадратов, при котором требование наилучшего согласования кривой Y=f(X) и экспериментальных точек сводится к тому, что сумма квадратов отклонений экспериментальных данных yi от линии Y=f(xi) должна быть минимальной:

n

S yi f (xi ) 2 min.

i1

Вкачестве примера рассмотрим регрессионную модель в виде линей-

ной функции:

y = b0 + b1 ·x.

Необходимо определить значения коэффициентов b0 и b1 из условия минимума функции S:

n

S yi b0 b1 xi 2 min.

i 1

Эта задача решается методами математического анализа. Найдем частные производные функции S по переменным b0 и b1 и приравняем их к нулю. Получим систему уравнений:

 

 

S

 

n

 

( 2)

yi b0 b1 xi 0,

 

 

 

 

 

b0

 

 

 

i 1

 

S

( 2) yi b0 b1 xi xi 0,

 

 

 

b1

 

 

 

 

 

или

526

 

 

 

n

 

 

n

 

 

n

 

 

 

 

 

 

yi b0 b1 xi 0,

 

 

 

i 1

 

 

i 1

 

 

i 1

 

 

 

n

 

 

 

 

 

 

 

 

 

 

i

 

i

 

n

0

i

 

n

1

i

2 0.

 

y

x

 

 

 

 

 

 

 

b

x

 

b

x

 

 

 

 

 

 

i 1

 

 

 

i 1

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

Сгруппируем слагаемые, содержащие неизвестные b0 и b1, в левой части уравнений системы, а свободные члены в правой:

 

n b0 b1

n

 

n

 

xi

yi ,

 

 

ni 1

 

i 1n

 

n

 

 

xi b1

2

xi yi .

b0

xi

 

 

i 1

i 1

 

i 1

Получена система линейных уравнений относительно переменных b0 и

b1. Решая ее, находим выражения для коэффициентов b0 и b1:

b yi xi 2 xi xi yi ,

0

 

 

n

 

x

2

x 2

 

 

 

 

i

 

i

b

n xi yi xi yi

.

 

 

 

 

 

 

1

 

 

n

 

x

2

x 2

 

 

 

 

i

 

i

Представленные формулы можно преобразовать и тогда уравнение ли-

нии регрессии принимает вид:

 

 

 

 

 

Sy

 

 

 

 

 

y

 

ср rxy*

x

 

ср .

y

x

 

 

 

 

 

 

 

Sx

 

 

 

 

Данное уравнение также называют выборочным линейным уравнени-

ем регрессии.

Проводя аналогичные исследования, можно построить уравнение зависимости X от Y, т.е. x a0 a1 y :

x

 

ср rxy*

Sx

y

 

ср .

x

y

Sy

 

 

 

 

 

 

Если построить обе прямые линии регрессии на одном графике (рис.8.8.3), то они пересекутся в точке с координатами xср; yср .

 

 

 

 

 

 

527

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

ср

• •

 

 

 

 

 

 

 

 

• •

 

 

 

 

 

 

 

 

 

 

X

хср

Рис.8.8.3

Угол между прямыми линиями будет тем меньше, чем сильнее зависимость между X и Y, т.е. чем ближе выборочный коэффициент корреляции по модулю приближается к единице.

Следует отметить, что близость выборочного коэффициента корреляции по модулю к единице является серьезным аргументом в пользу выбора линейной регрессионной модели.

Метод наименьших квадратом позволяет строить также и нелинейные регрессионные модели.

8.8.3.Проверка статистических гипотез

Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине) или о параметрах известных распределений, проверяемое по выборке (по результатам наблюдений).

Наряду с высказанной гипотезой рассматривают и противоречащую ей гипотезу. Если выдвинутая гипотеза отвергается, принимается противоречащая ей гипотеза.

Нулевой (основной) называют выдвинутую гипотезу H0. Конкурирующей (альтернативной) называют гипотезу H1, которая противоречит основной.

Например, если нулевая гипотеза H0: M(X)=10 (т.е. математическое ожидание нормально распределенной величины равно 10), тогда конкурирующая гипотеза может иметь вид H1: M(X)>10 или M(X)10.

Не располагая сведениями о всей генеральной совокупности, высказанную гипотезу сопоставляют, по определенным правилам, с выборочными сведениями и делают вывод о том, можно принять гипотезу или нет. Процедуру сопоставления высказанной гипотезы с выборочными данными назы-

528

вают проверкой гипотезы. В результате такой проверки может быть принято правильное или неправильное решение. Поэтому различают ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода заключается в том, что будет принята неправильная гипотеза.

Например, основная гипотеза состоит в том, что предприятие получает прибыль. Если это правильная гипотеза, то ошибка первого рода состоит в том, что данная гипотеза отвергается. Если принимается решение о том, что предприятие прибыль не получает, то это ошибка второго рода.

Обычно ошибка первого рода влечет за собой ошибку второго рода: если отвергнута гипотеза о том, что предприятие получает прибыль, то, естественно, принимается решение о том, что оно не имеет прибыли.

Однако на практике возможны и другие ситуации. В большинстве случаев рассматриваются гипотезы о законах распределения. Если отвергается правильный закон распределения, то совершается ошибка первого рода. Но после этого может быть принято решение уточнить данные, т.е. другая гипотеза не принимается. Если же принимается другое распределение, то совершается ошибка второго рода.

В целях проверки нулевой гипотезы в рассмотрение вводят специально подобранную случайную величину, распределение которой известно. Ее обозначают U или Z, если она распределена нормально, F или ν2 по закону

Фишера-Снедекора, T − по закону Стьюдента, χ2 по закону хи-квадрат. Для

общности ее можно обозначить K.

Случайную величину K, которая служит для проверки нулевой гипоте-

зы, называют статистическим критерием.

Для проверки гипотезы сначала по данным выборки вычисляются значения входящих в критерий величин, а затем и сам критерий. Вычисленное по выборке значение критерия называют наблюдаемым значением kнабл.

Область возможных значений критерия разбивают на две области: в одной находятся те значения, при которых гипотеза принимается, в другой − те, при которых она отвергается.

Критической областью называют область значений критерия, при которых нулевая гипотеза отвергается. Областью принятия гипотезы называют совокупность значений критерия, при которых гипотеза принимается.

Критическими точками (границами) kкр называют точки, отделяющие критическую область от области принятия гипотезы.

Критические области разделяются на правосторонние и левосторонние области. Правосторонняя область определяется неравенством K >kкр, левосторонняя −K < kкр. Это односторонние области. Существуют также и двусторонние области, определяемые неравенствами K < k1кр, K > k2кр, где k2кр>k1кр (k1кр и k2кр критические точки).

529

Для отыскания односторонней критической области необходимо найти критическую точку, исходя из условия

P ( K >kкр )=α (для правосторонней области).

Для каждого критерия, т.е. соответствующего распределения, обычно составлены таблицы, по которым находят kкр. После того как критическая точка найдена, по данным выборки вычисляют наблюдаемое значение крите-

рия. Если kнабл > kкр, то нулевую гипотезу отвергают, если наоборот, то принимают.

8.8.4.Проверка гипотезы о распределении генеральной совокупности. Критерий Пирсона

Критерием согласия называют критерий проверки гипотезы о предлагаемом законе распределения. Рассмотрим лишь один из них, использующий χ2-распределение и получивший название критерий согласия Пирсона.

Первоначально формулируют гипотезу о модели закона распределения случайной величины, затем по результатам наблюдений находят оценки неизвестных параметров этой модели (для нормального закона распределения таких параметра два). Найденные оценки подставляют в модель закона вместо неизвестных параметров. В результате предполагаемая модель оказывается полностью определенной и, используя ее, рассчитывают вероятности pi того, что случайная величина X примет зафиксированные в наблюдениях значения xi, эти вероятности называют теоретическими. Следует обратить внимание на следующее обстоятельство: сумма вероятностей ряда распределения должна быть равна единице, т.е.

pi 1.

i

Предположим, что выборка представлена в виде интервального статистического ряда. Зная границы каждого интервала и принятый закон распределения, можно найти вероятность попадания случайной величины в этот интервал pi. Если предполагается, что закон распределения нормальный, то теоретическая вероятность находится по формуле:

b

 

ср

a

 

 

 

ср

 

x

i

x

 

 

i

 

 

 

 

 

 

 

 

 

(2.2.6)

pi

S

 

 

 

 

 

S

 

 

,

 

 

 

 

 

 

 

 

 

 

где ai и bi нижняя и верхняя соответственно границы интервала; Ф(x) − функция Лапласа.

Затем находят теоретическую частоту появления события n·pi . Следует обратить внимание на то, что критерий согласия Пирсона можно использовать только в том случае, когда

n pi 5.