Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пособие по мат. стат

.pdf
Скачиваний:
457
Добавлен:
10.06.2015
Размер:
3.53 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«КАЗАНСКИЙ ГОСУДАРСТВЕННЫЙ ЭНЕРГЕТИЧЕСКИЙ УНИВЕРСИТЕТ»

Т.А. ГРИГОРЯН, Е.В. ЛИПАЧЕВА

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

ЧАСТЬ II

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Учебно-методическое пособие

Казань 2013

УДК 517.1

ББК 22.1

Г83

Рецензенты:

кандидат физико-математических наук, доцент Казанского государственного энергетического университета

Г83 Григорян Т.А., Липачева Е.В. Теория вероятностей и математическая статистика. Часть II. Математическая статистика: Учебнометодическое пособие/Т.А. Григорян, Е.В. Липачева – Казань: Казан. гос. энерг. ун-т, 2012. – 154 с.

Учебно-методическое пособие охватывает классические разделы математической статистики. Каждая глава начинается с подробного изложения теоретического материала, затем приводятся примеры решения задач, и завершается глава набором задач для самостоятельного решения. Все задачи снабжены ответами.

Учебно-методическое пособие предназначено для студентов второго курса инженерно-экономических специальностей и может быть рекомендовано для использования при проведении практических занятий.

УДК 517.1 ББК 22.1

© Казанский государственный энергетический университет, 2012

3

ПРЕДИСЛОВИЕ

Книга представляет собой вторую часть учебно-методического пособия по дисциплине «Теория вероятностей и математическая статистика», содержащую классические разделы математической статистики.

Математическая статистика – это наука, которая, основываясь на методах теории вероятностей, занимается систематизацией и обработкой статистических данных для получения научных и практических выводов.

Первая задача математической статистики – указать способы сбора и группировки статистических сведений.

Вторая задача – разработать методы анализа статистических данных, в зависимости от целей исследования.

Впервых трех главах пособия описывается статистический метод исследования. И хотя черты статистического метода в применении к объектам различной природы весьма своеобразны, можно выделить общие черты статистического метода, формальную математическую сторону статистического исследования, включающую в себя рассмотрение распределения количественных признаков, применение выборочного метода, связь статистических распределений с вероятностными, оценку параметров распределений, проверку вероятностных гипотез.

Вчетвертой и пятой главах рассматриваются дальнейшие задачи математической статистики, такие ее разделы, как регрессионный анализ и метод математического моделирования.

4

Глава 1

МЕТОДЫ СТАТИСТИЧЕСКОГО ОПИСАНИЯ РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ

Генеральная и выборочная совокупности

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего этот объект. Иногда проводят сплошное обследование, т.е. исследуется каждый из объектов совокупности относительно признака, которым интересуются. Но на практике сплошное обследование применяется крайне редко, например, если совокупность содержит очень большое число элементов. В таких случаях из всей совокупности случайным образом отбирают ограниченное число объектов и подвергают их изучению.

Выборочной совокупностью (или выборкой) называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность элементов, из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называется число объектов этой совокупности. Объем генеральной совокупности принято обозначать буквой N , объем выборочной совокупности обозначают n .

Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно ее представляли, т.е. выборка должна быть репрезентативной. В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее

осуществлять случайно, т.е. все объекты генеральной совокупности должны иметь одинаковую вероятность попасть в выборку. Для этого существуют различные виды отбора выборки:

1.Простым случайным отбором называется отбор, при котором объекты извлекаются по одному из всей генеральной совокупности.

2.Механическим называется отбор, при котором генеральная совокупность делится на столько частей, сколько объектов должно войти в выборку, и из каждой части случайным образом отбирается один элемент.

3.Серийным называется отбор, при котором объекты из генеральной совокупности отбираются «сериями», которые подвергаются сплошному обследованию.

4.Типическим называется отбор, при котором объекты отбирают не из всей генеральной совокупности, а из каждой «типической» ее части.

На практике часто применяется комбинированный отбор, при котором сочетается сразу несколько видов отбора, образующих различные фазы выборочного обследования. Например, иногда разбивают генеральную совокупность на серии одинакового объема, затем простым случайным

5

отбором выбирают несколько серий и, наконец, из каждой серии простым случайным отбором извлекают отдельные объекты. Существуют и другие методы организации выборки. Выборки разделяют на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

На практике обычно имеют дело с бесповторными выборками.

Статистическое распределение выборки

Пусть

из генеральной совокупности

извлечена выборка, причем

 

 

 

 

k

 

значение x1

наблюдалось n1 раз, x2

n2 раз,

xk nk раз и ni

n – объем

 

 

 

 

i 1

 

выборки. Наблюдаемые значения

xi

называются вариантами,

числа ni

частотами наблюдаемых значений, а отношения nni wi относительными

k

частотами вариант xi . Очевидно, что wi 1. Элементы выборки,

i 1

расположенные в возрастающем порядке, называются вариационным рядом. Вариационный ряд называется дискретным, если его члены принимают конкретные изолированные значения. Если члены ряда могут заполнить некоторый интервал, то такой ряд называется непрерывным. Наименьшее и наибольшее значения вариационного ряда обозначают xmin и xmax и

называют крайними членами вариационного ряда.

Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот. В случае непрерывного вариационного ряда или когда объем выборки очень велик, статистическое распределение задается в виде последовательности интервалов и соответствующих им частот. В этом случае весь интервал наблюдаемых значений [xmin , xmax ] разбивают на k частичных интервалов

[c0,c1) , [c1,c2), ,[ck 1,ck ] одинаковой длины h . В качестве частоты,

соответствующей интервалу, принимают сумму частот, попавших в этот интервал.

Согласно формуле Стерджеса рекомендуемое число интервалов

разбиения

 

k 1 log2 n,

(1.1)

а длины частичных интервалов

6

h

xmax xmin

.

(1.2)

 

 

k

 

Понятно, что группировка связана с потерей части полезной информации, заключенной в выборке. Однако она имеет и свои преимущества. Например, в случае очень большого объема выборки при группировке значительно сокращается объем вычислений.

Отметим, что распределение выборки является некоторым приближенным распределением генеральной совокупности.

Эмпирическая функция распределения

Пусть известно статистическое распределение частот количественного признака X . Введем обозначения:

nx число наблюдений, при которых наблюдалось значение признака, меньшее x ,

n общее число наблюдений (объем выборки).

 

 

 

 

Ясно,

что относительная частота события X x

равна

nx

. Если x

 

 

 

 

 

 

 

 

 

n

будет меняться, то, вообще говоря,

будет

изменяться

и относительная

частота, т.е.

относительная частота

nx

есть

функция

от

x .

Так как эта

 

n

 

 

 

 

 

 

 

 

 

функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию Fn (x) (или F*(x) ), определяющую для каждого значения x относительную частоту события X x , т.е.

Fn (x) nnx ,

где nx число вариант, меньших x ; n объем выборки.

В отличие от эмпирической функции распределения, функцию распределения генеральной совокупности F (x) называют теоретической

функцией распределения. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F (x) определяет

вероятность события X x , а эмпирическая функция Fn (x) определяет

относительную частоту этого события. Из теоремы Бернулли следует, что относительная частота события X x , т.е. Fn (x) стремится по вероятности

к вероятности F (x) этого же события. Поэтому эмпирическую функцию

распределения используют для приближенного представления теоретической функции распределения генеральной совокупности.

7

Из определения эмпирической функции распределения вытекают следующие свойства:

1)0 Fn (x) 1;

2)Fn (x) неубывающая функция;

3) если x1

наименьшая варианта, а xk наибольшая варианта,

то

Fn (x) 0 при x x1

и Fn (x) 1 при x xk .

 

Итак, эмпирическая функция распределения выборки служит

для

оценки теоретической функции распределения генеральной совокупности.

Статистика Dn sup | Fn (x) F(x) | называется отклонением эмпирической функции распределения от теоретической.

Полигон и гистограмма

Графически статистическое распределение может быть представлено в виде полигона, гистограммы или графика накопленных частот.

Полигоном частот называют ломаную, отрезки которой соединяют точки (x1, n1), (x2,n2 ), , (xk ,nk ) . Полигоном относительных частот

называют

ломаную,

отрезки

которой

соединяют

точки

(x1, w1), (x2, w2 ), , (xk , wk )

(рис. 1.1).

Полигоны

обычно служат для

изображения в случае дискретного распределения.

Рис. 1.1

Гистограммой частот называется ступенчатая фигура, состоящая из прямоугольников, основанием которых служат частичные интервалы длины

h , а высоты равны nhi . Площадь гистограммы частот равна сумме всех

частот, т.е. объему выборки.

Для построения гистограммы относительных частот за высоту

прямоугольников берут величину

wi

(рис. 1.2). Площадь гистограммы

h

 

 

относительных частот равна сумме всех относительных частот, т.е. единице. Гистограммы обычно служат для изображения выборки в случае

непрерывного распределения. Если на гистограмме частот соединить середины верхних сторон прямоугольников, то полученная ломаная образует

8

полигон частот. Аналогично получается полигон относительных частот из гистограммы относительных частот (рис. 1.3).

Рис. 1.2

Рис. 1.3

При построении гистограммы в реальных исследованиях следует понимать, что формула Стерджеса для числа интервалов разбиения k дает лишь рекомендацию, а не строгое правило. Если взять слишком маленькое число k , то гистограмма получится грубой, плохо отражающей свойства распределения. При слишком больших k гистограмма становится «колючей», имеет игольчатый вид и может распасться на отдельные «иглы» и пустые интервалы. Оптимальное значение k в общем случае неизвестно – оно зависит как от типа распределения, так и от конкретной выборки.

Графиком накопленных частот называется фигура, строящаяся аналогично гистограмме относительных частот, с тем различием, что для расчета высот прямоугольников вместо относительных частот берутся накопленные относительные частоты, т.е. величины

i

 

wic w j .

(1.3)

j 1

Эти величины не убывают и, таким образом, график накопленных частот имеет вид ступенчатой «лестницы». График эмпирической функции распределения проходит через правые верхние углы прямоугольников, т.е.

9

через точки вида (ci , wic ) . График накопленных частот и эмпирическая

функция распределения на практике используются для приближения теоретической функции распределения.

Примеры решения задач к главе 1

1. По данным выборки составить дискретное статистическое распределение: 1, 10, 15, 13, 9, 13, 7, 6, 1, 2, 10, 9, 15, 1, 7, 7, 7, 8, 1, 13.

Решение. Объем выборки n 20. Построим дискретный вариационный ряд, для этого надо расположить все значения выборки в возрастающем порядке. Получим

1, 1, 1, 1, 2, 6, 7, 7, 7, 7, 8, 9, 9, 10, 10, 13, 13, 13, 15, 15.

Теперь, по вариационному ряду, составим таблицу. В первой строке записываем различные варианты ряда, во второй строке – частоты соответствующих вариант, т.е. число повторений каждой варианты. Например, варианта x1 1 появляется четыре раза в выборке, значит частота

этой варианты n1 4 . Получим следующую таблицу:

 

xi

 

1

2

 

6

 

7

 

8

 

9

 

10

 

13

15

 

 

ni

 

4

1

 

1

 

4

 

1

 

2

 

2

 

3

2

 

 

Для проверки можно сложить все частоты ni , сумма должна

получиться равной числу n , т.е. объему выборки. Проверим,

 

 

 

 

 

 

 

 

4 1 1 4 1 2 2 3 2 20.

 

 

 

 

2. По

данным

выборки

объема

n 60

 

построить

статистическое

распределение.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1; 2,5; 1,5; 4; 6; 6,1; 3,7; 6,5; 2,5; 8,1; 7,8; 9,1; 5,1; 10; 13,4;

 

 

8,2; 4; 9,4; 11; 14,8; 13,2; 11,7; 15; 14,8; 12,8; 9,7; 13; 14; 3,4; 13,4; 8,4; 9,4; 9,1; 10,5; 4,8; 5; 1,3; 2,8; 8,6; 7; 14; 15; 7,3; 10; 12,7; 1,7; 5,6; 7,5; 8,9; 11,3; 13,7; 3; 6,3; 4; 3,2; 6,7; 15; 1,2; 7,9; 9,5.

Решение. Так как объем выборки достаточно велик и выборка содержит большое количество различных элементов, то данные выборки лучше сгруппировать. Найдем сначала крайние элементы ряда: xmin 1, xmax 15 .

Значит, отрезок [1; 15] надо разбить на k интервалов одинаковой длины. Чтобы найти оптимальное число интервалов разбиения, воспользуемся формулой Стерджеса:

k 1 log2 n 1 log2 60 7 .

10

То есть отрезок [1, 15] разбиваем на 7 интервалов. Длина этих интервалов одинакова и вычисляется по формуле

h xmax xmin 15 1 2 .

k 7

Получим следующие интервалы:

[1; 3), [3; 5), [5; 7), [7; 9), [9; 11), [11; 13), [13; 15].

Теперь надо найти частоты соответствующих интервалов. Частота каждого интервала – это количество вариант, вошедших в этот интервал. Например, в первый интервал [1;3) попадают элементы 1; 2,5; 1,5; 2,5; 1,3;

2,8; 1,7; 1,2. Всего 8 элементов, значит, частота интервала [1;3) равна 8. Проводя аналогичные рассуждения, получим следующую таблицу:

Номер

Частичный

Частоты ni

интервала

интервал

 

1

1–3

8

 

 

 

2

3–5

8

 

 

 

3

5–7

8

 

 

 

4

7–9

10

 

 

 

5

9–11

9

 

 

 

6

11–13

5

 

 

 

7

13–15

12

 

 

 

Эта таблица задает статистическое распределение исходной выборки. 3. Построить полигон частот по данному распределению выборки:

 

xi

 

2

 

3

 

5

 

6

 

 

ni

 

10

 

15

 

5

 

20

 

Решение. Отложим на оси абсцисс варианты

xi , а на оси ординат –

соответствующие

им частоты

ni , затем соединим последовательно точки

xi , ni . Полигон частот изображен на рис. 1.4.