Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

мат. стат

.pdf
Скачиваний:
18
Добавлен:
01.06.2015
Размер:
340.13 Кб
Скачать

Основные понятия математической статистики.

Математическая статистика – раздел математики, в котором изучаются методы сбора, систематизации и обработки результатов наблюдений массовых случайных явлений для выявления существующих закономерностей. Предметом математической статистики является изучение случайных величин (или случайных событий, процессов) по результатам наблюдений. Совокупность всех подлежащих изучению объектов или возможных результатов всех мыслимых наблюдений, производимых в неизменных условиях над одним объектом, называется генеральной совокупностью. Зачастую проводить сплошное обследование, когда изучаются все объекты, трудно или дорого, а иногда и невозможно. В этих случаях наилучшим способом обследования является выборочное наблюдение: выбирают из генеральной совокупности часть ее объектов («выборку») и подвергают ее изучению. Выборочной совокупностью (выборкой) называют совокупность объектов, отобранных случайным образом из генеральной совокупности. Более строго: выборка – это последовательность X1, X2, … Xn независимых одинаково распределенных случайных величин, распределение каждой из которых совпадает с распределением генеральной случайной величины. Число объектов (наблюдений) в совокупности, генеральной или выборочной, называется ее объемом; обозначается соответственно через N и n. Конкретные значения выборки, полученные в результате наблюдений (испытаний), называют реализацией выборки и обозначают строчными буквами x1, х2 хn. Метод статистического исследования, состоящий в том, что на основе изучения выборочной совокупности делается заключение о всей генеральной совокупности, называется выборочным. Различают выборки с возвращением (повторные) и без возвращения (бесповторные). В первом случае отобранный объект возвращается в генеральную совокупность перед извлечением следующего; во втором – не возвращается. На практике чаще используется бесповторная выборка.

Статистическое распределение выборки. Эмпирическая функция распределения.

Пусть изучается некоторая случайная величина Х. С этой целью над случайной величиной Х производится ряд независимых опытов (наблюдений). В каждом из этих опытов величина Х принимает то или иное значение. Пусть она приняла n1 раз значение х1, n2 раз – значение х2, …,nk раз – значение хк. При этом n1 n2 ... nk n – объем выборки. Значения x1, х2 хк называются вариантами

случайной величины Х. Вся совокупность значений случайной величины Х представляет собой первичный статистический материал, который подлежит дальнейшей обработке, прежде всего – упорядочению. Операция расположения значений случайной величины (признака) по неубыванию называется ранжированием статистических данных. Полученная таким образом

последовательность x1,

х2

хn

значений

случайной

 

величины Х

(где

x1 n2 ... xn )

называется

вариационным

рядом. Числа

ni, показывающие,

сколько раз встречаются варианты xi

в ряде наблюдений, называются

частотами,

а отношение

их

к

объему

выборки

частостями

или

 

 

 

 

 

 

ni

 

k

 

 

 

относительными частотами ( pi ), т.е.

pi

, где n ni

. Перечень вариантов

 

 

 

 

 

 

 

n

i 1

 

 

 

и соответствующих им частот или частостей называется статистическим распределением выборки или статистическим рядом. Записывается статистическое распределение в виде таблицы. Первая строка содержит варианты, а вторая – их частоты ni (или частости).

В случае, когда число значений признака (случайной величины Х) велико или признак является непрерывным (т.е. когда случайная величина Х может принять любое значение в некотором интервале), составляют интервальный статистический ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки х0;x1 , x1;x2 ,..., xk 1;xk , которые берут обычно

одинаковыми

по длине: h x1 x0 x2

x1 ... Для

определения

величины

интервала можно использовать формулу

h

xmax xmin

,

где

xmax xmin

– разность

 

 

 

 

 

 

1 log2 n

 

 

 

между наибольшим и наименьшим значениями признака,

m 1 log2 n – число

интервалов.

За начало первого интервала рекомендуется брать

величину

xнач хmin

h

.

Во второй строчке статистического ряда вписывают количество

 

2

 

 

 

 

 

 

 

 

наблюдений ni , попавших в каждый интервал.

Одним из способов обработки вариационного ряда является построение эмпирической функции распределения. Эмпирической (статистической) функцией распределения называется функция Fn (x), определяющая для каждого значения х частость события X x : Fn (x) p X x . Для нахождения

значений эмпирической функции удобно Fn (x) nx , где n – объем выборки, nx n

число наблюдений, меньших х (x R).

Графическое изображение статистического распределения.

Статистическое распределение изображается графически (для наглядности) в виде так называемых полигона и гистограммы. Полигон, как правило, служит для изображения дискретного (т.е. варианты отличаются на постоянную величину) статистического ряда. Полигоном частот называют ломаную, отрезки которой соединяют точки с координатами (х1,n1), (x2,n2), …, (xk,nk); полигоном частостей – с координатами (х1,p1), (x2,p2), …, (xk,pk). Варианты xi откладываются на оси абсцисс, а частоты и, соответственно, частости – на оси ординат. Полигон частостей является статистическим аналогом многоугольника распределения. Для непрерывно распределенного признака (т.е. варианты могут отличаться один от другого на сколь угодно малую величину) можно построить полигон частот, взяв середины интервалов в качестве значений x1, x2,….,xk. Более употребительна так называемая гистограмма. Гистограммой частот (частостей) называют ступенчатую фигуру, состоящую из прямоугольников, основаниями

которых служат частичные интервалы длины h, а высоты равны отношению ni h

плотность частоты ( pi – плотности частости). Очевидно, площадь гистограммы h

частот равна объему выборки, а площадь гистограммы частостей равна единице.

Числовые характеристики статистического распределения

Для выборки можно определить ряд числовых характеристик, аналогичных тем, что в теории вероятностей определялись для случайных величин. Пусть статистическое распределение выборки объема n имеет вид:

Генеральной средней xг называют среднее арифметическое значений

признака генеральной совокупности.

 

 

 

 

 

 

Выборочным

 

средним

 

 

в

называется

среднее арифметическое всех

 

x

 

 

 

 

 

 

 

 

1

k

 

 

 

 

 

 

 

 

значений выборки:

x

в

xi

ni .

Выборочное среднее можно записать и так:

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

 

 

 

k

 

 

 

ni

 

 

 

 

 

 

 

 

 

 

 

 

 

в xi pi ,

где pi

 

 

 

– частость.

Для обозначения выборочного

среднего

 

x

 

 

n

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

используют

следующие

 

символы:

 

, M (x),

mx . Отметим, что

в случае

 

x

интервального статистического ряда в равенстве хi ,берут середины его интервалов, а ni – соответствующие им частоты. Групповой средней называют среднее арифметическое значений признака, принадлежащих группе. Общей средней х называют среднее арифметическое значений признака, принадлежащих всей совокупности. Зная групповые средние и объемы групп,

можно найти общую среднюю: общая средняя равна средней арифметической групповых средних, взвешенной по объемам групп. Генеральной дисперсией Dг называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения xг . Выборочной дисперсией Dв называется среднее арифметическое квадратов отклонений

значений выборки от выборочной средней

 

 

в , т.е.

D

 

 

1

k

x

 

 

 

 

в 2

n

или, что

x

 

 

 

x

B

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

тоже самое, DB xi

 

в 2

pi ,

DB

 

 

 

2 ,

здесь

 

 

 

 

в .

Групповой

x

x2

 

 

x

x

x

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

дисперсией называют дисперсию значений признака, принадлежащих группе,

 

 

ni

 

 

 

относительно групповой средней:

Dj гр

(xi xj

)2

 

Nj

, где ni – частота значения

 

 

 

 

xi , j – номер группы, xj – групповая средняя группы j, N j ni объем группы j.

Внутригрупповой дисперсией называют среднюю арифметическую дисперсий,

взвешенную по объемам

групп: Dвнгр

NjDJ гр

, где

N j – объем

группы j,

n

n Nj

 

 

 

 

 

 

 

 

 

 

объем всей совокупности. Межгрупповой дисперсией называют

дисперсию

 

 

групповых

средних

относительно

общей

средней:

 

 

 

 

Nj

(

 

j

 

)2

 

 

 

 

 

 

 

Dмежгр

 

x

x

– групповая средняя группы j, N j – объем группы j,

 

 

 

 

 

 

 

 

, где xj

 

 

 

 

 

n

 

 

 

 

 

 

 

общая средняя, n Nj – объем всей совокупности. Если совокупность

 

x

состоит из нескольких групп, то общая дисперсия равна сумме внутригрупповой

и межгрупповой дисперсий: Dобщ Dвнгр Dмежгр . Выборочное

 

среднее

квадратическое отклонение выборки определяется формулой в

 

 

DB

. Особенность выборочного среднего квадратического отклонения состоит в том, что оно измеряется в тех же единицах, что и изучаемый признак. При решении

практических

задач

используется и величина

S2

1

k

x

 

 

 

в 2

n

, т.е.

 

x

 

 

i

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

n 1 i 1

 

 

 

 

 

 

 

S2

1

DB ,

которая

называется исправленной

выборочной

дисперсией.

 

 

n 1

 

 

 

 

 

 

 

 

 

 

 

 

Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии: г DГ . Величина S S2

называется исправленным выборочным средним квадратическим отклонением.

Для непрерывно распределенного признака формулы для выборочных средних будут такими же, но за значения х1, х2, х3,…, хк надо брать не концы

промежутков х0;x1 , x1;x2 ,..., xk 1;xk

, а их середины

x0 x1

,

x1 x2

, …

 

2

 

2

 

 

Оценки параметров распределения.

Статистической оценкой параметра теоретического распределения называют его приближенное значение, зависящее от данных выбора. Функцию результатов наблюдений (т.е. функцию выборки) называют статистикой. Статистика используемая в качестве приближенного значения неизвестного параметра генеральной совокупности, называется ее точечной оценкой.

Точечной оценкой неизвестного параметра называют число (точку на числовой оси), которое приблизительно равно оцениваемому параметру и может

заменить его с достаточной степенью точности в статистических расчетах.

Для того чтобы точечные статистические оценки обеспечивали “хорошие” приближения неизвестных параметров, они должны быть несмещенными,

состоятельными и эффективными.

Пусть – точечная оценка неизвестного параметра .

Несмещенной называют такую точечную статистическую оценку ,

математическое ожидание которой равно оцениваемому параметру:

M .

Состоятельной называют такую точечную статистическую оценку, которая при n стремится по вероятности к оцениваемому параметру. В частности, если дисперсия несмещенной оценки при n стремится к нулю, то такая оценка оказывается и состоятельной.

Эффективной называют такую точечную статистическую оценку, которая при фиксированном n имеет наименьшую дисперсию.

Оценка математического ожидания

Пусть имеется случайная величина Х с математическим ожиданием m и дисперсией D, при этом оба эти параметра неизвестны. Над величиной Х произведено N независимых экспериментов, в результате которых была получена совокупность N численных результатов x1, x2, …, xN. В качестве оценки математического ожидания естественно предложить среднее арифметическое

1 N

наблюдаемых значений т* N i 1 xi .

Оценка математического ожидания является несмещенной.

Оценка дисперсии

При больших объемах выборки для оценки дисперсии используют формулу:

N

D*

(xi m*)2

i 1

 

 

 

.

 

N

 

 

 

 

 

 

 

 

 

При относительно малых выборках следует пользоваться формулой для

исправленной дисперсии:

 

 

 

 

S2 D**

D*N

.

 

 

 

 

 

 

N 1

Оценку среднего квадратического отклонения (стандарта) производят по

формуле:

 

 

 

 

 

 

 

S S2 .

Наиболее распространенные методы

 

получения точечных оценок

параметров распределения: метод моментов, метод максимального правдоподобия и метод наименьших квадратов. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками. Оценка неизвестного параметра называется интервальной, если она определяется двумя числами – концами интервала. Интервальные оценки позволяют установить точность и надежность

оценок.

Если 0 и

 

 

,

то

чем меньше ,

тем оценка точнее. Таким

 

образом,

положительное число

 

характеризует

точность оценки. Задачу

интервального оценивания можно сформулировать так: по данным выборки построить числовой интервал 1 , 2 , относительно которого с заранее выбранной вероятностью можно сказать, что внутри этого интервала находится точное значение оцениваемого параметра. Интервал 1 , 2 накрывающий с вероятностью истинное значение параметра , называется доверительным интервалом, а вероятность – надежностью оценки или доверительной вероятностью. Величина выбирается заранее, ее выбор зависит от конкретно

решаемой задачи. Надежность принято выбирать равной 0,9; 0,95; 0,99 или

0,999.

Доверительный интервал для математического ожидания при известной дисперсии:

Пусть количественный признак X генеральной совокупности распределен нормально, причем среднее квадратическое отклонение этого распределения

известно. С надежностью можно утверждать, что доверительный интервал

 

 

 

 

 

 

 

 

 

 

 

покрывает неизвестный параметр

a; точность оценки

t

 

.

 

 

 

x t

 

 

 

,x t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

 

Число

t определяется из равенства Ф(t)

 

; по

таблице функции Лапласа

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

(приложение 4) находят аргумент t , которому соответствует значение функции Лапласа.

Доверительный интервал для математического ожидания при неизвестной дисперсии:

Пусть количественный признак X генеральной совокупности распределено нормально, причем среднее квадратическое отклонение неизвестно. Доверительный интервал, покрывающий неизвестный параметр a с

надежностью , имеет вид:

 

 

 

s

 

 

 

 

 

s

 

 

. По таблице приложения 2 по

 

 

 

 

 

 

x t

 

 

 

,x t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

заданным n и можно найти t .

Доверительный интервал для среднего квадратического отклонения нормального распределения:

Пусть количественный признак X генеральной совокупности распределен нормально. Доверительный интервал, покрывающий с заданной надежностью

, имеет вид: s(1 q) s(1 q)

(если q 1); 0 s(1 q) (если

q 1). Для

отыскания q пользуются таблицей приложения 1. По заданным n и

находят q.

Оценка истинного значения измеряемой величины

Пусть производится n независимых равноточных измерений некоторой физической величины, истинное значение а которой неизвестно. Будем рассматривать результаты отдельных измерений как случайные величины X1, X2, … Xn . Эти величины независимы (измерения независимы), имеют одно и то же математическое ожидание а (истинное значение измеряемой величины), одинаковые дисперсии 2 (измерения равноточны) и распределены нормально (такое допущение подтверждается опытом). Истинное значение измеряемой величины можно оценивать по среднему арифметическому результатов отдельных измерений при помощи доверительных интервалов. доверительных интервалов. Поскольку обычно неизвестно, следует пользоваться формулами, доверительного интервала для оценки математического ожидания нормального распределения при неизвестном .

Оценка точности измерений

В теории ошибок принято точность измерений (точность прибора) характеризовать с помощью среднего квадратического отклонения случайных ошибок измерений. Для оценки используют «исправленное» среднее

xmin

квадратическое отклонение s. Поскольку обычно результаты измерений взаимно независимы, имеют одно и то же математическое ожидание (истинное значение измеряемой величины) и одинаковую дисперсию (в случае равноточных измерений), то доверительные интервалы для оценки среднего квадратического отклонения нормального распределения, применим для оценки точности измерений.

Числовые характеристики вариационного ряда.

Кроме выборочной средней и выборочной дисперсии в качестве описательных характеристик вариационного ряда (или полученного из него статистического распределения выборки) используется медиана, мода, размах вариации (выборки) и т.д.

Размахом варьирования называется число R xmax xmin , где xmax

наибольший, – наименьший вариант ряда. Размах является простейшей характеристикой рассеяния вариационного ряда.

Модой M0 вариационного ряда называется вариант, имеющий наибольшую частоту.

Медианой Me вариационного ряда называется значение признака,

приходящееся на середину ряда.

Средним абсолютным отклонением

 

 

называют среднее

 

ni

 

xi

 

в

 

 

 

арифметическое абсолютных отклонений:

 

x

 

.

 

 

 

 

 

 

ni

 

 

Коэффициентом вариации V называют выраженное в процентах отношение выборочного среднего квадратического отклонения к выборочной

средней: V В 100%. Коэффициент вариации служит для сравнения величин xВ

рассеяния по отношению к выборочной средней двух вариационных рядов: тот из рядов имеет большее рассеяние по отношению к выборочной средней, у которого коэффициент вариации больше.

Гипотезы. Основные понятия

Одна из часто встречающихся на практике задач, связанных с применением статистических методов, состоит в решении вопроса о том, должно ли на основании данной выборки быть принято или, напротив, отвергнуто некоторое предположение (гипотеза) относительно генеральной совокупности (случайной величины). Статистической называют гипотезу о виде неизвестного распределения или о параметрах неизвестных распределений. Нулевой называют выдвинутую гипотезу H0 . Конкурирующей называют

гипотезу H1 , которая противоречит нулевой. Простой называют гипотезу,

содержащую только одно предположение. Сложной называют гипотезу, которая состоит из конечного или бесконечного числа простых гипотез. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Вероятность совершить ошибку первого рода принято обозначать через ; ее называют уровнем значимости. Наиболее часто уровень значимости принимают равным 0,05 или 0,01. Вероятность ошибки 2-го рода обозначается через . Величину 1 , т.е. вероятность недопущения ошибки второго рода,

называется мощностью критерия. Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближенное распределение которой известно. Обозначим эту величину в целях общности через K. Статистическим критерием (или просто критерием) называют случайную величину K, которая служит для проверки нулевой гипотезы. Наблюдаемым значением Кнабл называют значение критерия, вычисленное по выборкам. Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают. Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия принадлежит критической области – гипотезу отвергают, если наблюдаемое значение критерия принадлежит области принятия гипотезы

– гипотезу принимают. Критическими точками (границами) ккр называют точки, отделяющие критическую область от области принятия гипотезы. Правосторонней называют критическую область, определяемую неравенством K kкр , где kкр – положительное число. Левосторонней называют критическую область, определяемую неравенством K kкр , где kкр – отрицательное число.

Односторонней называют правостороннюю или левостороннюю критическую область. Двусторонней называют критическую область, определяемую неравенствами K k1 , K k2 , где k2 k1.

Сравнение дисперсий и математических ожиданий

Правило 1. Для того чтобы при заданном уровне значимости проверить нулевую гипотезу H0 : D(X) D(Y) о равенстве генеральных дисперсий нормальных совокупностей при конкурирующей гипотезе H1 : D(X) D(Y), надо вычислить наблюдаемое значение критерия (отношение большей исправленной

дисперсии к меньшей) Fнабл sб2 и по таблице критических точек распределения sм2

Фишера-Снедекора, по заданному уровню значимости и числам степеней

свободы k1 n1 1, k2 n2

1(k1

– число степеней свободы большей исправленной

дисперсии) найти критическую точку Fкр ( ;k1;k2 ). Если Fнабл

Fкр

– нет оснований

отвергнуть нулевую гипотезу. Если Fнабл Fкр

– нулевую гипотезу отвергают.

 

 

 

 

Правило 2. При конкурирующей гипотезе

H1 :

D(X) D(Y) критическую

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

точку Fкр

 

 

;k1

;k2 ищут по уровню значимости

 

 

 

(вдвое меньшему заданного) и

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

числам степеней свободы k1

 

и k2 (k1 - число степеней свободы большей

дисперсии). Если Fнабл Fкр

 

– нет оснований отвергнуть нулевую гипотезу. Если

Fнабл

Fкр – нулевую гипотезу отвергают.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Правило 3. Для того чтобы при заданном уровне значимости проверить

нулевую гипотезу H0 :

2

02

 

о равенстве неизвестной генеральной дисперсии

2

 

гипотетическому (предполагаемому) значению 02

при

конкурирующей

гипотезе

 

H1 :

2 02 ,

надо

 

вычислить

наблюдаемое

значение

критерия

2

 

 

(n 1)s2

 

и по таблице критических точек распределения 2 , по заданному

 

 

 

 

набл

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

уровню значимости

и числу степеней свободы k n 1

 

найти критическую

точку кр2 ( ;k). Если набл2

кр2

 

– нет оснований отвергнуть нулевую гипотезу.

Если набл2

кр2

– нулевую гипотезу отвергают.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Правило 4. При

 

конкурирующей гипотезе H1 :

2

02

находят левую

лев2

.кр (1

 

;k) и правую

прав2

.кр

(

 

;k) критические точки. Если лев2

.кр набл2

прав2

.кр

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

нет оснований отвергнуть нулевую гипотезу. Если набл2

прав2

.кр

или набл2

лев2

.кр

нулевую гипотезу отвергают.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Правило 5. При конкурирующей гипотезе

 

H1 :

2 02

находят

критическую точку кр2

(1 ;k).

Если набл2

кр2

– нет

оснований отвергнуть

нулевую гипотезу. Если набл2

кр2

– нулевую гипотезу отвергают.

 

 

 

 

 

Правило 6. Для того чтобы при заданном уровне значимости проверить

нулевую гипотезу H0 :

M(X) M(Y) о равенстве математических ожиданий двух

нормальных генеральных совокупностей с известными дисперсиями при конкурирующей гипотезе H1 : M(X) M(Y), надо вычислить наблюденное