Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методичка теория вероятности с типовыми заданиями (Силкин)

.pdf
Скачиваний:
95
Добавлен:
17.01.2018
Размер:
710.78 Кб
Скачать

510

1. Абсолютная величина коэффициента корреляции не превышает еди-

ницы.

rxy 1

2. Если rxy 1, то это указывает на линейную зависимость между слу-

чайными величинами.

3. Если rxy 0 , то случайные величины некоррелированы, что не озна-

чает их независимость вообще. Если СВ распределена по нормальному закону, то некоррелированность СВ означает их независимость.

511

ЛЕКЦИЯ 8.6. ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ. РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА. ЭМПИРИЧЕСКАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ. ПОЛИГОН И ГИСТОГРАММА

8.6.1.Основные задачи математической статистики

Математические законы теории вероятностей не являются беспредметными абстракциями, лишенными физического содержания. Они представляют собой математическое выражение реальных закономерностей, фактически существующих в массовых случайных явлениях природы.

До сих пор мы не затрагивали вопроса о том, откуда берутся, на каком основании устанавливаются законы распределения. В основе всех характеристик лежит опыт; каждое исследование случайных явлений, выполняемое методами теории вероятностей, прямо или косвенно опирается на экспериментальные данные.

Математическая статистика занимается изучением закономерностей, которым починяются массовые явления, на основе результатов наблюдений.

Первая задача математической статистики – это разработка методологии сбора и группировки статистического материала, полученного в результате наблюдений над случайными процессами.

Второй задачей является разработка методов анализа полученных статистических данных. Этот анализ включает оценку вероятностей событий, функции распределения вероятностей или плотности распределения, оценку параметров известного распределения, а также связей между случайными величинами.

Математическая статистика опирается на теорию вероятностей и служит основой для обработки и анализа статистических результатов в конкретных областях человеческой деятельности.

8.6.2.Генеральная и выборочная совокупности

Всю совокупность экспериментальных данных будем называть гене-

ральной совокупностью.

Однако, получение экспериментальных данных достаточно трудоемкий, дорогой процесс, а в некоторых случаях и просто невозможный. Поэтому из всей генеральной совокупности приходится выбирать только определенную часть объектов, которую называют выборочной совокупностью или

выборкой объема n.

В основе математической статистики лежит выборочный метод. Его идея состоит в следующем: выводы, полученные при изучении выборки, распространяются на всю генеральную совокупность.

512

В некоторых случаях результаты выборки зависят не только от ее объема, но и от способа отбора объектов. Если выборка правильно отражает соотношения в генеральной совокупности, то ее называют репрезентативной (представительной).

Предположим, что изучается некоторая случайная величина X, закон распределения которой в точности не известен, и требуется определить этот закон или проверить экспериментально гипотезу о том, что величина X подчинена тому или иному закону. С этой целью над случайной величиной X производится ряд независимых опытов (наблюдений). В каждом из этих опытов случайная величина X принимает определенное значение: x1, x2,, xn. Совокупность этих значений рассматривается как простая выборка.

Наблюдаемое значение xi называют вариантой, а их последовательность, записанную в возрастающем порядке, - вариационным рядом. Напри-

мер: 2; 2; 2; 3; 4; 4; 4; 6; 7; 8; 8; 8; 9.

Для каждой варианты можно указать частоту ее появления, которую обозначают mi* .Так, варианта 8 появляется три раза. Также может быть най-

дена относительная частота появления определенной варианты, как отношение частоты к объему выборки:

pi* mi* . n

Сумма всех относительных частот pi* должна быть равна единице.

Не трудно заметить, что относительная частота имеет смысл статистической вероятности.

8.6.3.Статистический ряд. Эмпирическая функция распределения

Статистическим распределением или статистическим рядом на-

зывают соответствие вариант и их частот (табл.8.6.1) или относительных час-

тот (табл.8.6.2).

Таблица 8.6.1

 

X

x1

x2

...

xk

 

или

mi*

m1*

m2*

...

mk*

 

 

 

 

 

 

Таблица 8.6.2

 

 

 

 

 

 

 

X

x1

x2

...

xk

 

 

pi*

p1*

p2*

...

pk*

Статистический ряд представляет собой первичную форму записи статистического материала и может быть обработан различными способами. Одним из способов такой обработки является построение эмпирической

функции распределения случайной величины. Обозначим через m*x число наблюдений, при которых значения вариант оказываются меньше, чем x. Эм-

513

пирической функцией распределения случайной величины называют функ-

цию Fx* относительной частоты числа наблюдений m*x

F* m*x Р* X x .

(8.6.1)

х n

Для того чтобы найти значение эмпирической функции распределения при данном x, достаточно подсчитать число опытов, в которых величина X приняла значение, меньше чем x, и разделить на общее число произведенных опытов n.

Пример. Построить эмпирическую функцию распределения по данной выборке

Таблица 8.6.3

 

X

 

3

 

 

6

 

8

 

10

 

 

mi*

 

6

 

 

12

 

18

 

14

 

Решение. Найдем объем выборки: n=6+12+18+14=50.

Составим эмпирическую функцию распределения, используя формулу

(8.6.1) и построим ее график (рис.8.6.1):

если x 3

 

 

 

 

 

 

0,

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

0,12,

если

3 x 6

 

 

 

 

50

*

 

18

0,36,

если

6 x 8

 

Fx

 

50

 

 

 

 

 

 

 

 

 

 

 

 

 

 

36

0,72,

если

8 x 10

 

 

 

 

50

 

 

 

 

1,

если x 10

 

 

 

 

 

 

Fx*

1,0

0,72

0,36

X

0,12

0

3

6

8

10

Рис.8.6.1

8.6.4.Полигон частот. Гистограмма

514

Графически статистический ряд можно представить в виде полигона частот. Полигоном частот называют ломаную линию, отрезки которой со-

единяют точки (xi; pi* ). Например, полигон частот может иметь вид

(рис.8.6.2):

р*i

p5

p3

p4 p2

p1

X

x1

 

x2

 

x3

 

x4

x5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис.8.6.2

При большом числе наблюдений (порядка сотен) статистический ряд перестает быть удобной формой записи статистического материала – он становится громоздким и мало наглядным. Для придания ему большей компактности и наглядности строится так называемый интервальный статистический ряд. В этом случае весь диапазон наблюдаемых значений X разделяется

на интервалы и подсчитывается количество значений mi* , приходящееся на

каждый интервал. Практика показывает, что число интервалов рационально выбирать порядка 10-20. Длину интервала – h – проще выбирать одинаковой.

Таблица 8.6.4

Границы интервалов

x1; x2

x2 ; x3

...

xk ; xk+1

pi*

p1*

p2*

...

pk*

Интервальный статистический ряд применяют и в том случае, если рассматривается непрерывная случайная величина.

Интервальный статистический ряд часто оформляется графически в виде гистограммы. Гистограммой называется ступенчатая фигура (рис.8.6.3), состоящая из прямоугольников, основаниями которых служат отрезки, равные длине интервала, а высотами являются относительные частоты, деленные на длину интервала. Поэтому площадь под гистограммой равна единице.

515

mi*

n h

h

X

 

Рис. 8.6.3

516

ЛЕКЦИЯ 8.7. ТОЧЕЧНЫЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ. НЕСМЕЩЕННОСТЬ, СОСТОЯТЕЛЬНОСТЬ И ЭФФЕКТИВНОСТЬ ОЦЕНКИ

8.7.1.Статистические оценки

Одной из центральных задач математической статистики является задача оценки теоретического распределения случайной величины на основе выборочных данных. При этом предполагается, что закон распределения генеральной совокупности известен, но неизвестны его параметры, такие, например, как математическое ожидание и дисперсия. Любое значение этих параметров, вычисленное на основании ограниченного количества опытов, всегда будет содержать элемент случайности. Такое приближенное, случайное значение называют статистической оценкой.

Обозначим через ã оценку некоторого теоретического параметра a закона распределения случайной величины X. Рассматривая выборочные значения x1, x2, …, xn как реализации случайных величин X1 , X2, …, Xn, получивших конкретные значения в результате опытов, можно представить оценку ã как функцию этих случайных величин

ã = ã (X1, X2, , Xn).

Это значит, что оценка сама является случайной величиной. Закон распределения ã зависит, во-первых, от закона распределения величины X; вовторых, от числа опытов n.

Предъявим к оценке ã ряд требований, которым она должна удовлетворять, чтобы быть в каком-то смысле «доброкачественной» оценкой. Это следующие требования:

состоятельность;

несмещенность;

эффективность.

Состоятельной называется статистическая оценка, если вероятность того, что отклонение оценки ã от истинного значения параметра a, будет меньше ε, равна единице, т.е.

P( | ã – a|<ε )=1 при n→∞.

Оценка ã называется несмещенной, если математическое ожидание оценки совпадает с ее истинным значением:

M [ ã ] = a.

Оценка ã называется эффективной, если она при одних и тех же объемах выборки обладает наименьшей дисперсией:

D [ ã ] =min.

На практике не всегда удается удовлетворить этим требованиям. Например, может оказаться, что, даже если эффективная оценка существует, формулы для ее вычисления оказываются слишком сложными, и приходится удовлетворяться другой оценкой, дисперсия которой несколько больше. Ино-

517

гда применяются – в интересах простоты расчетов – незначительно смещенные оценки. Однако выбору оценки всегда должно предшествовать ее критическое рассмотрение со всех перечисленных выше точек зрения.

Различают оценки точечные и интервальные.

8.7.2.Точечные оценки

Точечной называют оценку, которая определяется одним числом. Точечной оценкой математического ожидания служит выборочная

средняя хср, которой называют среднее арифметическое значений выборки. Если все значения выборки различны, то

 

 

х1 х2 ... хn

 

1

n

 

ср

 

xi .

х

n

n

 

 

 

i 1

Для статистического ряда

xср 1 k xi mi*. n i 1

Для интервального статистического ряда

хср 1 k xi* mi*, n i 1

где xi* − середина интервала; k − количество интервалов.

Для характеристики рассеивания выборочных значений относительно выборочного среднего, т.е. для оценки дисперсии, вводится понятие выборочной дисперсии.

Выборочной дисперсией Dв называется среднее арифметическое квадратов отклонений наблюдаемых значений от выборочного среднего.

Если все значения выборки различны, то

 

xi

 

ср 2

 

n

x

.

Dв

n

i 1

 

Если значения выборки имеют соответствующие частоты, то

 

1

k

Dв

xi

 

ср 2 mi*.

x

 

n

i 1

Если выборка представлена интервальным статистическим рядом, то

 

1

k

Dв

xi*

 

ср 2 тi*.

x

 

n

i 1

Выборочным средним квадратичным отклонением называют ариф-

метический квадратный корень из выборочной дисперсии:

σв Dв .

518

Не трудно доказать, что выборочная средняя хв является несмещенной оценкой, а выборочная дисперсия Dв смещенной оценкой. Чтобы «испра-

вить» выборочную дисперсию, ее следует умножить на дробь n n 1.

На практике используют более удобную формулу для вычисления не-

смещенной выборочной дисперсии для статистического ряда:

 

1

 

 

k

 

 

2

 

 

 

S 2

 

 

xi2 mi* n xср

.

n 1

 

i 1

 

Для интервального статистического ряда:

 

1

 

 

k

2

 

 

 

2

 

 

 

 

 

 

S 2

 

 

xi*

 

mi* n xср

 

.

n 1

 

 

 

i 1

 

 

 

 

 

 

Несмещенное выборочное среднее квадратичное отклонение:

S S 2 .

Для определения точечных оценок параметров распределения используют метод интервалов и метод наибольшего правдоподобия.

8.7.3.Интервальные оценки

При малом числе наблюдений точечная оценка в значительной степени случайна, и замена истинного значения параметра на оценку может привести к серьезным ошибкам.

Чтобы дать представление о точности и надежности оценки в математической статистике пользуются так называемыми доверительными интервалами и доверительной вероятностью.

Пусть найденная по данным выборки величина ã служит оценкой неизвестного параметра a. Оценка ã определяет параметр a, тем точнее, чем меньше | a ã |, т.е. чем меньше величина ε в неравенстве | a ã |< ε , ε >0.

Так как оценка ã − случайная величина, то и разность | a ã | − случайная величина. Поэтому неравенство | a ã |< ε, при заданном ε, может выполняться только с некоторой вероятностью.

Доверительной вероятностью (надежностью) оценки ã параметра a

называется вероятность β, с которой оценивается неравенство | a ã |< ε . Доверительную вероятность β назначают достаточно большой (0,9;

0,95; 0,99) такой, чтобы событие с вероятностью β можно считать практически достоверным. Затем находят такое значение ε , для которого

P(| a ã |< ε )= β.

В этом случае диапазон возможных значений ошибки, возникающих при замене параметра a на оценку ã, будет ± ε. Большие по абсолютной величине ошибки будут появляться только с малой вероятностью α=1−β, которую называют вероятностью риска или уровнем значимости.

Неравенство | a ã |< ε можно записать в виде

519

ε < a ã < ε или ã − ε < a < ã + ε.

Доверительным интервалом называется интервал (ã − ε ; ã + ε ), ко-

торый покрывает неизвестный параметр a с заданной надежностью β. Доверительный интервал также можно рассматривать как интервал значений параметра a, совместимых с опытными данными и не противоречащих им.

В качестве примера рассмотрим построение доверительного интервала для параметров нормального закона распределения при заданной надежности.

8.7.4.Доверительный интервал для оценки математического ожидания и дисперсии нормального распределения

Идея методов построения доверительных интервалов сводится к следующему. Любой доверительный интервал находится из условия, выражающего вероятность выполнения некоторых неравенств, в которые входит интересующая нас оценка ã. Закон распределения оценки ã в общем случае зависит от самих неизвестных параметров величины X. Однако иногда удается перейти в неравенствах от случайной величины ã к какой-либо другой функции наблюдаемых значений X1, X2, , Xn, закон распределения которой не зависит от неизвестных параметров, а зависит только от числа опытов n и от вида закона распределения величины X. Такого рода случайные величины играют большую роль в математической статистике.

Пусть по результатам эксперимента получена оценка математического ожидания хср. Доказано, что при нормальном распределении величины X случайная величина

Т М(Х)

х

ср

(8.8.1)

 

S 2

 

 

n

 

 

подчиняется так называемому распределению Стьюдента. Значения этого

распределения tkзависят от числа степеней свободы k= n-1 и доверитель-

ной вероятности β и находятся по таблицам.

Не останавливаясь на выводах этого распределения, покажем, как его можно использовать для построения доверительного интервала для математического ожидания.

Естественно выбирать такой интервал симметричным относительно

оценки

х

ср. Обозначим как β половину длины интервала. Величину β

сле-

дует подбирать так, чтобы выполнялось условие

 

 

 

P(

 

M (X )

 

ср

 

β) β.

(8.8.2)

 

 

 

 

 

 

 

x

Перейдем в левой части равенства (8.8.2) от случайной величины хср к случайной величине T, распределенной по закону Стьюдента. Для этого ум-