книги из ГПНТБ / Дьяченко, А. Н. Интегральное исчисление функций нескольких переменных. Теория вероятностей и элементы математической статистики учебное пособие
.pdf6.3. Точечные оценки параметров распределения генеральной совокупности
Для описания законов распределения реальных случайных ве личин обычно используют близкие к ним теоретические законы рас пределения (такие как нормальный, показательный, Пуассона и др.), каждый из которых зависит от конечного числа параметров. Если по виду графика'выборочного закона распределения £ или из теоретических соображений удается установить вид закона рас пределения генеральной совокупности, то дальнейшее уточнение этого распределения сводится к оценке его параметров.
Пусть а — параметр закона распределения генеральной сово купности. Точечная оценка этого параметра по выборочным значе ниям состоит в том, чтобы по наблюдавшимся в выборке значениям случайной величины
X lt x t , . . . , x n
указать значение параметра а. Обозначим указанное таким образом
значение (оценку параметра а) символом ап. При сделанном в конце §6.1 предположении Х ъ Х 2, . . . , Хп можно считать значениями независимых случайных величин |2, . . . , \п, закон распреде ления каждой из которых совпадает с законом распределения ге неральной совокупности. Оценка а* параметра а ставит в соответст
вие каждому возможному набору Х г, Х 2, ■••, Хп значений слу
чайных |
величин |
12, |
определенное |
число |
а*, следова |
|
тельно, является функцией этих случайных величин: |
|
|||||
|
|
а; = |
ф „(?,, 52, . |
. . . у . |
|
(6.9) |
Как |
всякая функция |
случайных |
величин, |
оценка |
а*п сама яв |
ляется случайной величиной. Закон распределения ап зависит как
от закона распределения генеральной совокупности, так и от вида функции <рп.
Выборочные моменты. В качестве оценки моментов закона рас пределения генеральной совокупности обычно используются вы борочные моменты, которые вычисляются по таким же формулам, что и оцениваемые моменты, только вместо возможных значений xt случайной величины ставятся выборочные значения Xh получен ные в результате наблюдения, а вместо вероятностей — частоты. Например, начальные моменты находятся по формуле- (6.3). В ка честве оценки математического ожидания используется выбороч ное среднее, которое в зависимости от объема выборки определяется либо по формуле (6.4), когда п велико, либо по формуле (6.1):
т* = |*= _L
П £=1
При большом объеме выборки п (не менее нескольких десятков) в силу центральной предельной теоремы закон распределения т*п
160
будет близок к нормальному при любом законе распределения ге неральной совокупности.
Если т*п мало, заключение центральной предельной теоремы еще не имеет силы, и закон распределения т*п в общем случае нельзя считать нормальным. Однако если распределение генераль
ной совокупности нормальное, то |
распределение т* при любом |
п — 1 , 2 , . . . также нормальное, |
как распределение суммы нор |
мальных случайных величин. |
|
Выборочная дисперсия в зависимости от объема выборки опреде ляется по формулам (6.2) или (6.4).
Оценки по методу максимума правдоподобия. Распространенным методом вычисления оценок параметров закона распределения ге неральной совокупности является метод максимума правдоподобия. Пусть с точностью до параметра известна плотность вероятности закона распределения генеральной совокупности f (х, а). Тогда
вероятность того, что г-е выборочное значение |
будет принадле |
жать области |
|
+ Л, |
(6.10) |
равна |
|
f(X it а )А + аг-Д |
|
где Ншаг = 0. |
|
Д ->0 |
|
Вероятность одновременного выполнения неравенств (6.10) для всех г, как вероятность произведения независимых событий, равна произведению их вероятностей:
П [/(X,., |
а) А + |
aiA ]= f(X 1, a)f{X2, а) . . . f(X n, а)Ап+уАп, |
i=1 |
|
|
где у ^ О |
при А |
0. |
Коэффициент при Ап в первом слагаемом правой части послед него равенства называется функцией правдоподобия. Обозначим его g (Х х, Х 2, . . . , Хп, а). В качестве оценки параметра а выби рается значение а*, при котором функция правдоподобия дости
гает наибольшего значения. Необходимое условие экстремума
dg(Xlt X t, ■ ■ ■ , Х п, а) 0
да
задает оценку ап как функцию выборочных значений Х ъ Х 2, . . . , Хп неявно.
Требования, предъявляемые в статистике к точечным оценкам. О качестве оценок в статистике судят по тому, насколько они удов летворяют следующим трем требованиям:
161
1. Состоятельность оценки. Оценка а* параметра а называется состоятельной, если при п оо она сходится по вероятности к па раметру а, т. е. при любом е>-0
lim P ( |а;— а | < е ) = 1. |
(6.11) |
|
п-юо ' |
' |
|
Теорема. Для состоятельности оценки а* достаточно, чтобы при со
М[а*п] ^ а и D [а*] -> 0. |
(6.12) |
Д о к а з а т е л ь с т в о . По определению предела последова
тельности, если ПтМГа*1 = а, |
то по любому — > 0 |
найдется |
|||
п-*-оо |
L J |
|
|
2 |
, номера |
такое число Nv что для членов последовательности УИ[а*] |
|||||
которых п'Д>Ы1 будет выполняться неравенство |
|
||||
a - T L < M [a*n] < a + f . |
(6.13) |
||||
При этом, каждый |
раз, когда |
будут |
выполняться неравенства |
||
м К |
\ |
- |
т |
+ i |
(6.14) |
|
|||||
одновременно будут выполняться неравенства |
|
||||
|
а— е < а* |
а + г |
|
||
и равносильное им неравенство |
|
|
|
|
|
|
\а*п—а | < е . |
|
(6.15) |
Это означает, что при n^>N1 вероятность выполнения неравен ства (6.15) не меньше вероятности выполнения неравенств (6.14)
или равносильного им неравенства |
|а* — М Га*] |<— |
: |
|
1 > р ( I I < « ) > Р |
IК - М [а;] |< -S- |
. |
(6.16) |
Для оценки снизу правой части последнего неравенства, вос пользуемся неравенством Чебышева (5.123). Возьмем в этом нера-
венстве | = а* и |
вместо е, в результате (5.123) приводится к |
виду: |
|
|
Р [ \ К - М К } \ > |
< |
|
События |
< - Щ < ] |
|>Н |
[«;]!<■ |
|
162
противоположны. Поэтому
(6.17)
Из (6.16) и (6.17) следует, что
Так как£> [а*] |
0, |
то при |
п ^ |
с о предел правой |
части нера |
венств (6.18) равен |
1, |
левая |
часть |
неравенств равна |
1, поэтому |
при любом е > 0 существует предел центральной части |
неравенств |
и этот предел равен 1*. Таким образом, справедливо (6.11), следо вательно, теорема доказана.
Покажем, что выборочное среднее т* и выборочная дисперсия с>2 являются состоятельными оценками математического ожидания
т и дисперсии а генеральной совокупности. Из свойств 1 и 4 мате матического ожидания следует:
пт
т. (6.19)
п
По определению дисперсии
° [ т'п]=М [[т' п - т)*\=М
Вынесем — за скобку:
п
Вычтем из каждого слагаемого под знаком суммы по т и выне-
сем неслучайный множитель — за знак математического ожидация:
После возведения в квадрат получаем:
* См. [1], § 5.5, теорема 1, стр. 142.
163
Применяя свойство 4 математического ожидания и вспоминая определение дисперсии и корреляционного момента, находим:
D Гт*1=- 1 |
П |
2 М [& -т)*] + 2 2 М [(^-mjdy-m)] |
|
Я* |
I 1=1 |
1 . В Ы + 2 ^ К щ
1=1 |
i+i |
11 |
Ввиду независимости L и £. при |
i Ф\ |
Къ . = 0, кроме того |
D [£г] = а 2 при всех i, поэтому |
|
|
D К ] |
|
( 6. 20) |
Далее |
|
|
М Го-21 = М |
-т_ |
|
± 2 < ь - |
|
Представим каждое слагаемое
Возведем полученные выражения в квадрат и просуммируем по i поочередно первое, второе и третье слагаемые. После преобразова ний получим:
М Гсг21= М 4 |
- 3 |
f-tm- |
-2 (т*— т) X |
|
- Х - г 2 & - т ) + {т*п- т у |
||||
Заметим, что |
|
|
|
|
1 |
|
|
■тп—т, |
|
2 ( | £-— т ) = — 21£г |
||||
i=l |
|
г=1 |
|
|
поэтому |
1 |
|
|
|
М [сг2] = м |
m |
—/л) |
||
3 |
||||
v |
f t - |
|
Пользуясь свойствами математического ожидания 2 и 4 и опреде
лением дисперсии, находим: |
|
|
М К ] = |
[ K - m ) * ] = |
|
= _L у |
|
|
П |
|
|
Принимая во внимание (6.20) и то, |
что при всех i D[\t] = а2, |
|
имеем: |
п — 1 |
|
М |a?J = а2 |
||
(6.21) |
164
Аналогичные, правда более громоздкие, вычисления дают;
Ич ^2 |
2 (р4-~2и|) |
Р4 — 3^2 |
п |
Я2 |
(6. 22) |
и3 |
где р&— центральный момент порядка k закона распределения
генеральной |
совокупности. |
что |
при |
п |
|
М [m*] = m |
_ и |
|||
Из (6.19) |
и |
(6.20) следует, |
с о |
|||||||
£ > [я г ;]^ 0 , — а |
из |
(6.21) и |
(6.22), М |
[a2] |
- |
a2, |
D [а2] -> 6 . |
|||
Таким образом, |
условие (6.12) |
выполнено |
и, |
следовательно, |
яг*, |
|||||
а2, являются состоятельными оценками т и а2. |
|
|
|
|
||||||
2. Несмещенность оценки. Оценка ап параметра а называется |
||||||||||
несмещенной, |
если |
математическое |
ожидание |
|
оценки |
совпадает |
||||
с истинным значением параметра; |
|
|
|
|
|
|
||||
|
|
|
М[а*п]= а . |
|
|
|
(6.23) |
При многократном повторении оценок а* их значения группи руются около математического ожидания М [а*]. Разность между
математическим ожиданием оценки и истинным значением пара метра называется систематической ошибкой оценки. Если оценка несмещенная, то ее систематическая ошибка равна нулю.
Из (6.19) следует, что выборочное среднее т* является несме
щенной оценкой математического ожидания. Выборочная диспер сия a2, как следует из (6.21), не является несмещенной оценкой
дисперсии генеральной совокупности.
Несмещенной оценкой дисперсии является величина
П
V х,- -т |
(6.24) |
При большом объеме п выборки величины о2 и а2 мало отли чаются друг от друга, однако при малом п следует пользоваться оценкой а2.
Пример 5. В примерах 1 и 3 были вычислены математические ожидания т * = |* и выборочные дисперсии а2 высоты колец и диаметров голо
вок заклепок соответственно. Как отмечалось, величина т* = |* яв ляется несмещенной оценкой математического ожидания. По из
вестному объему выборки п и выборочной дисперсии о 2 найти несме щенную оценку дисперсии, используя результаты решения примеров
Р е ш е н и е . В примере 1 п = 10, о2 =0,193. Воспользовав
шись формулой (6.24) находим, что несмещенная дисперсия высоты колец равна:
о2 = — |
— |
о2 = |
— |
0,193 = 0,214. |
п ~ |
1 |
* |
9 |
|
В примере 3 о2 = |
0,0120; |
п = |
200. Находим — - — = 1,005, поэ- |
|
* |
|
|
|
п — 1 |
165
тому
а2п = 1,005-0,0120 = 0,0121.
Несмещенная оценка дисперсии практически не отличается от выборочной дисперсии.
3.Эффективность оценки. Если две величины а°п и а* являютс
несмещенными оценками параметра а, то выгоднее применять ту из них, значения которой меньше разбросаны вокруг математиче ского ожидания, т. е. оценку с меньшей дисперсией. Несмещенная оценка называется эффективной оценкой параметра а, если ее дис персия достигает минимального возможного значения по сравнению с дисперсиями других несмещенных оценок того же параметра.
Заметим без доказательства, что если закон распределения ге неральной совокупности нормальный, то оценки, полученные по методу максимума правдоподобия обладают минимальной диспер сией, хотя не все из них являются несмещенными. Оценка матема тического ожидания, полученная в случае нормального распределе ния по методу максимума правдоподобия, совпадает с т*п и потому
удовлетворяет всем трем требованиям: она является состоятельной, несмещенной и эффективной. Действительно, функция правдоподо бия в этом случае имеет вид:
§ (-^li |
•••> Хп, т) ' ( / 2л а)п |
_1_ |
2 (X l-m)2 |
2а- |
1=1 |
Точка максимума этой функции совпадает с точкой минимума функции
g i = 2 (X t— m f ,
{=1
которая находится из условия
= 2 i ( X , - m ) = 0.
от
Откуда
П
Оценки числовых характеристик векторных случайных величин. Аналогичная задача оценки параметров закона распределения воз никает при обработке ограниченного числа наблюдений над век торными случайными величинами (системами случайных величин). Рассмотрим, например, точечные оценки числовых характеристик в случае, когда наблюдаются значения двух случайных величин (компонент двумерного случайного вектора). Результаты обследова ния выборки объема п представляют собой п пар:
(Xlt Yx), (Xt, Y%), . . . , (Хп, Yn).
166
Несмещенными точечными оценками математических ожиданий будут средние арифметические:
2 x t 2 Yt
т\= — — ; |
т* = ^ |
---- |
х п |
У |
п |
Несмещенные оценки дисперсий и корреляционного момента
.. * |
1=1 |
; |
|
2 ( » V |
Dx |
п — 1 |
Dy= i=i |
||
|
|
|
п — |
|
|
H |
( X i - m l ) |
[Yt ■ m*y] |
|
|
i=i |
|
|
|
|
Кxy - |
|
П— |
|
|
|
|
||
6.4. Д оверительны е интервалы |
и |
доверительны е вероятности |
Точечная оценка а* параметра а распределения генеральной совокупности является случайной величиной, поэтому, чтобы иметь представление о погрешности такой оценки, нужно знать вероят ность ее большего или меньшего отклонения от оцениваемого пара метра. С этой целью в статистике вводится понятие доверительной вероятности и соответствующего ей доверительного интервала.
Пусть ая = ан (Х1з Х 2, . . . |
, Хп) и ав = |
ав (Хъ |
Х 2, . . . , Хп), |
||
причем |
ан< а в, такие функции выборочных |
значений, |
что вероят |
||
ность |
выполнения неравенств |
аъ<Са<Сав |
равна |
(3. |
Интервал, |
[ан, ав] называется доверительным интервалом параметра а соот ветствующим доверительной вероятности (3.
Таким образом, событие, состоящее в том, что доверительный интервал, вычисленный по выборочным значениям, накроет неиз вестный оцениваемый параметр а, является случайным. Вероят ность этого события равна заданной доверительной вероятности |3:
Р {ан< а < а в} = р. |
(6.25) |
Заметим, что при этом параметр а хотя и неизвестен, но не слу чаен. Случайными величинами являются концы доверительного интервала, поскольку они функции значений случайной выборки. Обычно в качестве доверительной вероятности |3 берется число, близкое к единице (0,9 и более), чтобы можно было быть в большой степени уверенным, что оцениваемый параметр лежит внутри до верительного интервала. Вопрос о конкретной величине р решается из практических соображений.
Условие (6.25) не однозначно определяет положение доверитель ного интервала на числовой оси. Обычно либо дополнительно тре буют, чтобы доверительный интервал был симметричен относи
тельно |
точечной оценки параметра а*, т. е. ан = а*—s |
и ав — |
= а* + |
s, тогда условие (6.25) принимает вид: |
|
|
Р{ | а * — а | < е } = р, |
(6.26) |
167
либо требуют, чтобы вероятности положений доверительного ин тервала левее и правее оцениваемого параметра были равны; ввиду (6.25) концы интервала в этом случае удовлетворяют условию:
P (a < a H) = P (a > a B) = i-=-^-. |
(6.27) |
Если а* — несмещенная оценка параметра а и закон распреде ления ее симметричен относительно математического ожидания, то доверительные интервалы, определяемые условиями (6.26) и (6.27), совпадают.
Вычисление доверительного интервала для математического ожидания при известной дисперсии. Предположим сначала, что величина | в генеральной совокупности распределена по нормаль ному закону с математическим ожиданием т и дисперсией а2. Бу дем считать дисперсию а2 известной. В этом случае оценка
П
т"
1—1
математического ожидания генеральной совокупности распределена по нормальному закону с математическим ожиданием М [т* ] = т
и дисперсией D 1т* ] = |
а2 В соответствии |
с формулой |
(5.33) |
|
имеем: |
|
|
|
|
т" |
-т I < е } = 2Ф |
\гп |
•1. |
(6.28) |
|
Таким образом, половину длины г доверительного интервала, соответствующего доверительной вероятности |3, можно найти из условия
2Ф S Y n |
1= р. |
(6.29) |
Обозначим /ц квантиль порядка |
+ Р нормального закона |
рас |
пределения с параметрами т = 0 и а = 1, т. е. корень уравнения
Ф((): Р (6.30)
Тогда
(6.31)
Уп
и, следовательно, доверительным интервалом для математического ожидания, соответствующим доверительной вероятности р будет интервал
т " |
— t o |
(6.32) |
У п |
У |
|
168
Величина может быть найдена по табл. 1 приложения. Для этого нужно найти значение функции Ф (х), равное |3, и определить соответствующее значение аргумента, которому равно
Если объем выборки я большой (я>-30), то в силу центральной предельной теоремы закон распределения т* будет близок к нор мальному при любом распределении S в генеральной совокупности и если известна дисперсия а2 генеральной совокупности, довери тельный интервал для математического ожидания можно по-преж нему вычислять по формуле (6.32). При больших я (я>100) эта формула пригодна и в том случае, когда дисперсия генеральной совокупности неизвестна. Следует только параметр а заменить од
ной из его оценок ап или а*.
Пример 6. Пусть величина | распределена в генеральной совокупности по нормальному закону с дисперсией а2 = 0,1. Каким должен быть объем выборки, чтобы ширина 2е доверительного интервала для ма тематического ожидания, при доверительной вероятности (3 = 0,99, не превосходила 0 ,1.
Р е ш е н и е . По табл. I приложения находим ф = 2,6. Так как е = 0,05, то из (6.31) следует, что
Следовательно, чтобы выполнялось неравенство |т* — т |<<е с вероятностью 0,99 нужно взять выборку объема п >281.
Вычисление доверительного интервала для дисперсии. В тех слу чаях, когда неизвестны все параметры закона распределения ге неральной совокупности, границы доверительных интервалов вы ражают через функции выборочных значений, законы распределе ния которых не зависят от параметров закона распределения ар гументов. К таким законам распределения относятся упоминав шиеся ранее х2 — распределение и закон распределения Стьюдента.
Пусть случайная величина \ распределена в генеральной сово купности по нормальному закону с параметрами яти о. Тогда рас-
ПОо |
|
пределением случайной величины —п2—, где |
я объем выборки, а |
о2 — выборочная дисперсия, как следует из |
(6.1), (6.2) и (5.119), |
является распределение х2 с я— 1 степенями свободы. Для диспер сии генеральной совокупности о 2 найдем доверительный интервал, удовлетворяющий условию (6.27), т. е. найдем ан и ав такие, что
|
|
(6.33) |
Введем вспомогательные величины: |
.2 |
|
|
(6.34) |
|
Yi = |
.2 |
|
7 Заказ № 1740 |
|
169 |