Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ПР1_Заболотников_9373

.pdf
Скачиваний:
2
Добавлен:
20.06.2023
Размер:
887.53 Кб
Скачать

МИНОБРНАУКИ РОССИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ «ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА) Кафедра алгоритмической математики

ОТЧЕТ по практической работе №1

по дисциплине «Статистический анализ» Тема: Формирование и первичная обработка выборки. Ранжированный

и интервальный ряды.

Студент гр. 9373

 

Заболотников М.Е.

Преподаватель

 

 

Сучков А.И.

Санкт-Петербург

2021

Цель работы.

Ознакомление с основными правилами формирования выборки и подготовки выборочных данных к статистическому анализу.

Основные теоретические положения.

Для выполнения данной практической работы использовались следующие понятия и формулы:

1.Генеральная совокупность – множество всех изучаемых объектов или возможных результатов всех наблюдений некоторой случайной величины.

2.Выборная совокупность (она же – выборка) – множество случайно отобранных объектов из генеральной совокупности.

3.Виды выборки: простая, механическая, типическая и серийная.

4.Ряд распределения выборки дискретных величин – ряд,

представленный в форме таблицы вида:

 

 

 

 

 

 

 

 

. . .

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. . .

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

. . .

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где

– варианта выборки,

– её абсолютная частота и

 

– её относительная

 

 

 

 

 

 

 

 

 

 

 

 

 

частота.

5.Ранжированный ряд – ряд элементов выборки (такие элементы называются вариантами), упорядоченный по неубыванию.

6.Вариационный ряд – отсортированный дискретный ряд распределения.

7.Интервальный вариационный ряд – ряд, представленный через

интервалы:

(

 

;

]

( ;

]

( ;

]

. . .

(

−1

;

]

 

−1

 

0

1

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. . .

 

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

. . .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

где

 

и

+1

– соответственно левая и

правая

границы

интервалов,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

количество

элементов выборки,

попавших в

данный

интервал и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

относительная частота.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для оценки оптимального количества интервалов используют формулу

Стёрджесса:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 1 + [log2 ]

 

 

(1)

или, через десятичный логарифм:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 1 + [3.322 lg ]

 

 

(2)

 

Для вычисления длины интервала необходимо размах выборки

поделить на количество интервалов:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

=

 

 

 

 

 

 

 

(3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее, чтобы определить левую границу первого интервала, нужно из

минимального элемента выборки вычесть половину длины интервала:

 

 

 

 

 

 

 

 

=

 

 

 

 

 

(4)

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Правые границы интервалов находятся путём прибавления к

соответствующим левым границам значения длины:

 

 

 

 

 

 

 

 

 

 

=

−1

+

 

 

(5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8. Накопленная частота элемента – сумма частоты самого элемента и частот всех элементов до него. Иными словами (на примере абсолютной частоты):

=

+

+ +

= ∑

(6)

1

2

 

 

 

=1

То же самое справедливо и для относительных частот.

9.Полигон частот – линия, соединяющая точки ряда распределения

( , ) или ( , ).

10. Гистограмма (для интервалов) – набор столбцов, ширина которых равна длине интервала, а высота – отношению абсолютной частоты интервала к его длине. Гистограмма – это своего рода аналог плотности распределения.

3

11.Кумулята – ломанная, соединяющая точки с координатами ( , )

или ( , ).

12.Эмпирическая функция распределения – функция ( ) = (где

– число выборочных значений ), которая определяет для каждого значения

относительную частоту события < . Данная функция имеет вид:

0, ≤ 1

( ) = 1, 1 < ≤ 2 (7)1 + 2, 2 < ≤ 3

{1, >

Постановка задачи.

Осуществить формирование репрезентативной выборки заданного объема из имеющейся генеральной совокупности экспериментальных данных.

Осуществить последовательное преобразование полученной выборки в ранжированный, вариационный и интервальный ряды. Применительно к интервальному ряду построить и отобразить графически полигон, гистограмму и эмпирическую функцию распределения для абсолютных и относительных частот, а также кумуляту. Полученные результаты содержательно проинтерпретировать.

Исходные данные – база данных из источника [1].

Выполнение работы.

1.Для выполнения практической работы был выбран язык программирования MATLAB. Данный язык был выбран, так как он наиболее удобен при работе с выборками, графиками, функциями и т.п. Текст программного кода представлен в приложении A.

2.Из базы данных, представленной на сайте (см. источник [1]), была сформирована двумерная генеральная совокупность (столбцы ACORN-G и

ACORN-D).

4

3.Из указанной в п. 2 генеральной совокупности была взята выборка,

полученная случайным образом, следовательно, выборка – случайная. Данные

выборки представлены ниже (см. табл. 1).

Таблица 1 – Исходная выборка

i

1

2

3

4

5

6

7

8

9

10

11

12

13

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

97

102

83

90

102

109

108

98

107

53

54

77

94

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

15

16

17

18

19

20

21

22

23

24

25

26

27

 

 

 

 

 

 

 

 

 

 

 

 

 

 

84

212

71

105

98

79

90

62

108

153

69

60

58

91

 

 

 

 

 

 

 

 

 

 

 

 

 

 

28

29

30

31

32

33

34

35

36

37

38

39

40

41

 

 

 

 

 

 

 

 

 

 

 

 

 

 

64

97

75

95

154

242

295

87

94

203

22

96

103

138

 

 

 

 

 

 

 

 

 

 

 

 

 

 

42

43

44

45

46

47

48

49

50

51

52

53

54

55

 

 

 

 

 

 

 

 

 

 

 

 

 

 

140

138

89

20

81

30

72

12

158

125

36

77

154

107

 

 

 

 

 

 

 

 

 

 

 

 

 

 

56

57

58

59

60

61

62

63

64

65

66

67

68

69

 

 

 

 

 

 

 

 

 

 

 

 

 

 

99

44

4

120

108

115

75

97

44

78

110

101

98

105

 

 

 

 

 

 

 

 

 

 

 

 

 

 

70

71

72

73

74

75

76

77

78

79

80

81

82

83

 

 

 

 

 

 

 

 

 

 

 

 

 

 

84

73

108

106

106

107

105

110

98

72

83

87

79

107

 

 

 

 

 

 

 

 

 

 

 

 

 

 

84

85

86

87

88

89

90

91

92

93

94

95

96

97

 

 

 

 

 

 

 

 

 

 

 

 

 

 

109

113

110

100

92

81

75

93

123

139

115

97

69

49

 

 

 

 

 

 

 

 

 

 

 

 

 

 

98

99

100

101

102

103

104

105

106

107

108

109

110

111

 

 

 

 

 

 

 

 

 

 

 

 

 

 

108

166

69

123

147

42

75

117

103

98

98

90

99

113

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4. Далее из выборки был получен ранжированный ряд (см. рис. 1). В

верхней строке располагаются номера элементов, ниже – сами элементы. Размах выборки довольно большой для такого количества элементов:

= − = 295 − 20 = 275.

5

Рисунок 1 – Ранжированный ряд Ранжированный ряд был преобразован в вариационный (см. рис. 2). В

верхней строке также расположен порядковый номер элемента, ниже – сам элемент, на третьей строке – его абсолютная частота, и на четвёртой – относительная частота. Как видно из рисунка, самое частое появление какого-

либо элемента здесь равно 6 (число 98). А в целом, выборка оказалась довольно разнообразной, потому что из 111 элементов 66 различные.

Рисунок 2 – Вариационный ряд

6

После того, как был построен вариационный ряд, он был преобразован в интервальный. Результаты отражены на рис. 3. Стоит отметить, что при использовании формулы Стёрджесса количество интервалов:

= 1 + [log2 111] = 1 + 6 = 7

Можно заметить, что правая граница седьмого интервала оказалась меньше максимального элемента: 243.4375 < 295. Следовательно, пришлось дальше строить интервалы до тех пор, пока правая граница последнего интервала не окажется больше либо равной максимальному значению выборки. Таким образом, к общему числу интервалов добавились ещё два, то есть стало равно

9. Учитывая, что формула Стёрджесса тем более точна, чем ближе распределение к нормальному, можно сделать вывод, что наше распределение далеко от нормального. Тем более, что, если взглянуть на рис. 3, можно увидеть,

что восьмой интервал не содержит в себе ни одного элемента, хотя данный интервал – не последний. Опять же, для понимания: на верхней строке расположен номер интервала, на последующих двух строках – соответственно левая и правая границы интервала, на четвёртой строке – абсолютная частота интервала, и на последней строке – его относительная частота.

Рисунок 3 – Интервальный ряд

5. Далее для интервального ряда абсолютных частот были построены и отображены графически: полигон (рис. 4), гистограмма (рис. 5), эмпирическая функция (рис. 6) и кумулята (рис. 7). Для того, чтобы построить ниже описанные графики, за абсциссы точек брались значения середин интервалов.

7

Рисунок 4 – Полигон абсолютных

Рисунок 5 – Гистограмма абсолютных

частот

частот

Рисунок 6 – Эмпирическая функция

Рисунок 7 – Кумулята абсолютных

 

частот

Если внимательно посмотреть на график полигона и на гистограмму (рис. 4 и 5 соответственно), то можно убедиться в том, что распределение элементов по интервалам не совсем нормальное. Особенно это видно на полигоне. Что касается эмпирической функции, то из её графика (рис. 6) видно, что вероятность выполнения условия < резко взрастает на пути к середине графика. Понятно,

что данный график удовлетворяет условию ( ) [0; 1].

Те же графики были построены и для ряда относительных частот. Ниже представлены результаты построения полигона (рис. 8), гистограммы (рис. 9),

эмпирической функции (рис. 10) и кумуляты (рис. 11) для относительных частот.

8

Рисунок 8 – Полигон относительных

Рисунок 9 – Гистограмма

частот

относительных частот

Рисунок 10 – Эмпирическая функция Рисунок 11 – Кумулята относительных частот

Из рисунков видно, что они пропорционально-идентичны графикам для абсолютных частот. Это связано с тем, что относительная частота напрямую зависит от абсолютной. График эмпирической функции – один и тот же для обоих случаев. Ну а так как по сути кумулята для относительных частот и график эмпирической функции строятся по одним и тем же значениям (что вытекает из определений эмпирической функции и кумуляты), их графики совершенно одинаковые. Единственное отличие: график кумуляты, в отличие от графика эмпирической функции, не уходит в ±∞, так как кумулята начинается со значения частоты первого элемента и заканчивается накопленной частотой последнего. Иными словами, область определения кумуляты представляется как

9

[ ; ], в то время как эмпирическая функция определена на всей

1

 

вещественной прямой.

Выводы.

В ходе работы были изучены такие понятия, как генеральная совокупность,

выборка, ряд распределения, ранжированный ряд распределения, вариационный ряд, интервальный ряд и т.д. Были построены полигоны, гистограммы, графики эмпирических функций и кумуляты для интервального ряда абсолютных и относительных частот. Также было отмечено, что графики попарно пропорционально идентичны и отличаются лишь масштабом по оси ординат.

Это следует из прямой зависимости относительной частоты от абсолютной.

Графики эмпирической функции для обоих типов частот совершенно одинаковые, так как, по определению, = = . Кроме того, благодаря графикам полигона и гистограммы, а также тому, что формула Стёрджесса дала далеко не точное количество интервалов, было понятно, что распределение,

рассмотренное в данной работе, не является нормальным.

10