ПР1_Заболотников_9373
.pdfМИНОБРНАУКИ РОССИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ «ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА) Кафедра алгоритмической математики
ОТЧЕТ по практической работе №1
по дисциплине «Статистический анализ» Тема: Формирование и первичная обработка выборки. Ранжированный
и интервальный ряды.
Студент гр. 9373 |
|
Заболотников М.Е. |
|
Преподаватель |
|
|
Сучков А.И. |
Санкт-Петербург
2021
Цель работы.
Ознакомление с основными правилами формирования выборки и подготовки выборочных данных к статистическому анализу.
Основные теоретические положения.
Для выполнения данной практической работы использовались следующие понятия и формулы:
1.Генеральная совокупность – множество всех изучаемых объектов или возможных результатов всех наблюдений некоторой случайной величины.
2.Выборная совокупность (она же – выборка) – множество случайно отобранных объектов из генеральной совокупности.
3.Виды выборки: простая, механическая, типическая и серийная.
4.Ряд распределения выборки дискретных величин – ряд,
представленный в форме таблицы вида:
|
|
|
|
|
|
|
|
. . . |
|
|
|
|
|
|
|
|
|
|
|
1 |
|
2 |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. . . |
|
|
|
|
|
|
|
|
|
|
|
1 |
|
2 |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
|
|
|
|
|
|
. . . |
|
|
|
1 |
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
1 |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
где |
– варианта выборки, |
– её абсолютная частота и |
|
– её относительная |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
частота.
5.Ранжированный ряд – ряд элементов выборки (такие элементы называются вариантами), упорядоченный по неубыванию.
6.Вариационный ряд – отсортированный дискретный ряд распределения.
7.Интервальный вариационный ряд – ряд, представленный через
интервалы:
( |
|
; |
] |
( ; |
] |
( ; |
] |
. . . |
( |
−1 |
; |
] |
|
|
−1 |
|
0 |
1 |
1 |
2 |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. . . |
|
|
|
|
|
|
|
1 |
2 |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
|
|
|
|
|
. . . |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
1 |
2 |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
где |
|
и |
+1 |
– соответственно левая и |
правая |
границы |
интервалов, |
|
|
– |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
количество |
элементов выборки, |
попавших в |
данный |
интервал и |
|
|
– |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
относительная частота. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
Для оценки оптимального количества интервалов используют формулу |
||||||||||||||||||
Стёрджесса: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
= 1 + [log2 ] |
|
|
(1) |
||||||||||||
или, через десятичный логарифм: |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
= 1 + [3.322 lg ] |
|
|
(2) |
||||||||||||
|
Для вычисления длины интервала необходимо размах выборки |
||||||||||||||||||
поделить на количество интервалов: |
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
− |
|
|
|
|
|
||||
|
|
|
|
= |
|
|
|
= |
|
|
|
|
|
|
|
(3) |
|||
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
Далее, чтобы определить левую границу первого интервала, нужно из |
||||||||||||||||||
минимального элемента выборки вычесть половину длины интервала: |
|
|
|
||||||||||||||||
|
|
|
|
|
= |
|
− |
|
|
|
|
(4) |
|||||||
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
0 |
|
|
|
2 |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
Правые границы интервалов находятся путём прибавления к |
||||||||||||||||||
соответствующим левым границам значения длины: |
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
= |
−1 |
+ |
|
|
(5) |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8. Накопленная частота элемента – сумма частоты самого элемента и частот всех элементов до него. Иными словами (на примере абсолютной частоты):
= |
+ |
+ + |
= ∑ |
(6) |
1 |
2 |
|
|
|
=1
То же самое справедливо и для относительных частот.
9.Полигон частот – линия, соединяющая точки ряда распределения
( , ) или ( , ).
10. Гистограмма (для интервалов) – набор столбцов, ширина которых равна длине интервала, а высота – отношению абсолютной частоты интервала к его длине. Гистограмма – это своего рода аналог плотности распределения.
3
11.Кумулята – ломанная, соединяющая точки с координатами ( , )
или ( , ).
12.Эмпирическая функция распределения – функция ( ) = (где
– число выборочных значений ), которая определяет для каждого значения
относительную частоту события < . Данная функция имеет вид:
0, ≤ 1
( ) = 1, 1 < ≤ 2 (7)1 + 2, 2 < ≤ 3
…
{1, >
Постановка задачи.
Осуществить формирование репрезентативной выборки заданного объема из имеющейся генеральной совокупности экспериментальных данных.
Осуществить последовательное преобразование полученной выборки в ранжированный, вариационный и интервальный ряды. Применительно к интервальному ряду построить и отобразить графически полигон, гистограмму и эмпирическую функцию распределения для абсолютных и относительных частот, а также кумуляту. Полученные результаты содержательно проинтерпретировать.
Исходные данные – база данных из источника [1].
Выполнение работы.
1.Для выполнения практической работы был выбран язык программирования MATLAB. Данный язык был выбран, так как он наиболее удобен при работе с выборками, графиками, функциями и т.п. Текст программного кода представлен в приложении A.
2.Из базы данных, представленной на сайте (см. источник [1]), была сформирована двумерная генеральная совокупность (столбцы ACORN-G и
ACORN-D).
4
3.Из указанной в п. 2 генеральной совокупности была взята выборка,
полученная случайным образом, следовательно, выборка – случайная. Данные
выборки представлены ниже (см. табл. 1).
Таблица 1 – Исходная выборка
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xi |
97 |
102 |
83 |
90 |
102 |
109 |
108 |
98 |
107 |
53 |
54 |
77 |
94 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
84 |
212 |
71 |
105 |
98 |
79 |
90 |
62 |
108 |
153 |
69 |
60 |
58 |
91 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
28 |
29 |
30 |
31 |
32 |
33 |
34 |
35 |
36 |
37 |
38 |
39 |
40 |
41 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
64 |
97 |
75 |
95 |
154 |
242 |
295 |
87 |
94 |
203 |
22 |
96 |
103 |
138 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
42 |
43 |
44 |
45 |
46 |
47 |
48 |
49 |
50 |
51 |
52 |
53 |
54 |
55 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
140 |
138 |
89 |
20 |
81 |
30 |
72 |
12 |
158 |
125 |
36 |
77 |
154 |
107 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
56 |
57 |
58 |
59 |
60 |
61 |
62 |
63 |
64 |
65 |
66 |
67 |
68 |
69 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
99 |
44 |
4 |
120 |
108 |
115 |
75 |
97 |
44 |
78 |
110 |
101 |
98 |
105 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
70 |
71 |
72 |
73 |
74 |
75 |
76 |
77 |
78 |
79 |
80 |
81 |
82 |
83 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
84 |
73 |
108 |
106 |
106 |
107 |
105 |
110 |
98 |
72 |
83 |
87 |
79 |
107 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
84 |
85 |
86 |
87 |
88 |
89 |
90 |
91 |
92 |
93 |
94 |
95 |
96 |
97 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
109 |
113 |
110 |
100 |
92 |
81 |
75 |
93 |
123 |
139 |
115 |
97 |
69 |
49 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
98 |
99 |
100 |
101 |
102 |
103 |
104 |
105 |
106 |
107 |
108 |
109 |
110 |
111 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
108 |
166 |
69 |
123 |
147 |
42 |
75 |
117 |
103 |
98 |
98 |
90 |
99 |
113 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4. Далее из выборки был получен ранжированный ряд (см. рис. 1). В
верхней строке располагаются номера элементов, ниже – сами элементы. Размах выборки довольно большой для такого количества элементов:
= − = 295 − 20 = 275.
5
Рисунок 1 – Ранжированный ряд Ранжированный ряд был преобразован в вариационный (см. рис. 2). В
верхней строке также расположен порядковый номер элемента, ниже – сам элемент, на третьей строке – его абсолютная частота, и на четвёртой – относительная частота. Как видно из рисунка, самое частое появление какого-
либо элемента здесь равно 6 (число 98). А в целом, выборка оказалась довольно разнообразной, потому что из 111 элементов 66 различные.
Рисунок 2 – Вариационный ряд
6
После того, как был построен вариационный ряд, он был преобразован в интервальный. Результаты отражены на рис. 3. Стоит отметить, что при использовании формулы Стёрджесса количество интервалов:
= 1 + [log2 111] = 1 + 6 = 7
Можно заметить, что правая граница седьмого интервала оказалась меньше максимального элемента: 243.4375 < 295. Следовательно, пришлось дальше строить интервалы до тех пор, пока правая граница последнего интервала не окажется больше либо равной максимальному значению выборки. Таким образом, к общему числу интервалов добавились ещё два, то есть стало равно
9. Учитывая, что формула Стёрджесса тем более точна, чем ближе распределение к нормальному, можно сделать вывод, что наше распределение далеко от нормального. Тем более, что, если взглянуть на рис. 3, можно увидеть,
что восьмой интервал не содержит в себе ни одного элемента, хотя данный интервал – не последний. Опять же, для понимания: на верхней строке расположен номер интервала, на последующих двух строках – соответственно левая и правая границы интервала, на четвёртой строке – абсолютная частота интервала, и на последней строке – его относительная частота.
Рисунок 3 – Интервальный ряд
5. Далее для интервального ряда абсолютных частот были построены и отображены графически: полигон (рис. 4), гистограмма (рис. 5), эмпирическая функция (рис. 6) и кумулята (рис. 7). Для того, чтобы построить ниже описанные графики, за абсциссы точек брались значения середин интервалов.
7
Рисунок 4 – Полигон абсолютных |
Рисунок 5 – Гистограмма абсолютных |
частот |
частот |
Рисунок 6 – Эмпирическая функция |
Рисунок 7 – Кумулята абсолютных |
|
частот |
Если внимательно посмотреть на график полигона и на гистограмму (рис. 4 и 5 соответственно), то можно убедиться в том, что распределение элементов по интервалам не совсем нормальное. Особенно это видно на полигоне. Что касается эмпирической функции, то из её графика (рис. 6) видно, что вероятность выполнения условия < резко взрастает на пути к середине графика. Понятно,
что данный график удовлетворяет условию ( ) [0; 1].
Те же графики были построены и для ряда относительных частот. Ниже представлены результаты построения полигона (рис. 8), гистограммы (рис. 9),
эмпирической функции (рис. 10) и кумуляты (рис. 11) для относительных частот.
8
Рисунок 8 – Полигон относительных |
Рисунок 9 – Гистограмма |
частот |
относительных частот |
Рисунок 10 – Эмпирическая функция Рисунок 11 – Кумулята относительных частот
Из рисунков видно, что они пропорционально-идентичны графикам для абсолютных частот. Это связано с тем, что относительная частота напрямую зависит от абсолютной. График эмпирической функции – один и тот же для обоих случаев. Ну а так как по сути кумулята для относительных частот и график эмпирической функции строятся по одним и тем же значениям (что вытекает из определений эмпирической функции и кумуляты), их графики совершенно одинаковые. Единственное отличие: график кумуляты, в отличие от графика эмпирической функции, не уходит в ±∞, так как кумулята начинается со значения частоты первого элемента и заканчивается накопленной частотой последнего. Иными словами, область определения кумуляты представляется как
9
[ ; ], в то время как эмпирическая функция определена на всей |
|
1 |
|
вещественной прямой.
Выводы.
В ходе работы были изучены такие понятия, как генеральная совокупность,
выборка, ряд распределения, ранжированный ряд распределения, вариационный ряд, интервальный ряд и т.д. Были построены полигоны, гистограммы, графики эмпирических функций и кумуляты для интервального ряда абсолютных и относительных частот. Также было отмечено, что графики попарно пропорционально идентичны и отличаются лишь масштабом по оси ординат.
Это следует из прямой зависимости относительной частоты от абсолютной.
Графики эмпирической функции для обоих типов частот совершенно одинаковые, так как, по определению, = = . Кроме того, благодаря графикам полигона и гистограммы, а также тому, что формула Стёрджесса дала далеко не точное количество интервалов, было понятно, что распределение,
рассмотренное в данной работе, не является нормальным.
10