- •«Южно-российский государственный
- •Содержание
- •Практическая работа n 1. Основы статистического описания.
- •Содержание работы.
- •Задание к самостоятельной работе.
- •Практическая работа n 2. Предварительный анализ данных. Проверка гипотез о согласии эмпирического распределения и выбранной модели
- •Выводы.
- •Задание к самостоятельной работе.
- •Практическая работа n 3. Предварительный анализ данных. Проверка гипотез о равенстве числовых характеристик случайных величин
- •2. Одна генеральная совокупность. Две случайные величины.
- •3. Две генеральные совокупности. Одна случайная величина.
- •Выводы.
- •Задание к самостоятельной работе.
- •Практическая работа №4 Анализ статистических связей между количественными переменными Оценивание парных статистических связей
- •Практическая работа №5 Основы регрессионного анализа
- •Задание к самостоятельной работе.
- •Литература:
Содержание работы.
Описательная статистика позволяет с помощью специальных методов осуществить удобное представление данных для последующего анализа в виде частотных распределений, графических изображений и различных числовых характеристик.
I. Первым этапом статистической обработки данных является их шкалирование и наглядное представление. Для этого используются табличный (групповой) и графический методы.
Табличный метод анализа заключается в группировании данных в виде таблиц по определенным признакам.
Графический метод сводится к построению гистограмм ( двухмерных, трехмерных), диаграмм рассеяния и др. графиков.
Применение названных методов рассмотрим на примере. В таблице П 1 представлены данные о несчастных случаях на производстве. Проанализируем первых 50 строк таблицы (Таблица 1)
.
Таблица 1
N |
Цех |
Пол |
Возраст |
Квалификация |
Стаж |
t от обучения |
t от нач.смены |
Кол-во дней нетр. |
1 |
1 |
1 |
21 |
1 |
1 |
125 |
3,5 |
27 |
2 |
1 |
1 |
31 |
3 |
10 |
74 |
5,5 |
3 |
3 |
2 |
1 |
28 |
1 |
6 |
82 |
7 |
4 |
4 |
2 |
1 |
42 |
3 |
15 |
63 |
6,5 |
11 |
5 |
3 |
2 |
38 |
2 |
16 |
98 |
3,5 |
4 |
6 |
4 |
2 |
38 |
2 |
15 |
102 |
4 |
5 |
7 |
2 |
1 |
25 |
1 |
4 |
142 |
3 |
16 |
8 |
1 |
1 |
27 |
2 |
5 |
160 |
5 |
21 |
9 |
1 |
2 |
31 |
2 |
8 |
157 |
3 |
12 |
10 |
2 |
1 |
27 |
2 |
5 |
110 |
5,5 |
11 |
11 |
4 |
1 |
34 |
2 |
8 |
120 |
6 |
3 |
12 |
3 |
1 |
28 |
2 |
5 |
147 |
5 |
11 |
13 |
1 |
2 |
29 |
3 |
8 |
124 |
5 |
8 |
14 |
1 |
1 |
34 |
3 |
11 |
66 |
5 |
6 |
15 |
3 |
1 |
28 |
2 |
8 |
88 |
5,5 |
6 |
16 |
3 |
1 |
21 |
1 |
1 |
125 |
3,5 |
26 |
17 |
2 |
1 |
37 |
5 |
16 |
176 |
4 |
12 |
18 |
1 |
2 |
39 |
4 |
14 |
145 |
7 |
6 |
19 |
1 |
1 |
44 |
3 |
12 |
163 |
3,5 |
6 |
20 |
2 |
2 |
29 |
2 |
8 |
160 |
3 |
13 |
21 |
4 |
2 |
26 |
2 |
5 |
94 |
5 |
11 |
22 |
4 |
1 |
23 |
1 |
2 |
97 |
6 |
10 |
23 |
3 |
1 |
33 |
3 |
10 |
68 |
5 |
7 |
24 |
2 |
1 |
48 |
5 |
24 |
163 |
1,5 |
3 |
25 |
2 |
1 |
33 |
1 |
4 |
173 |
1,5 |
18 |
26 |
1 |
1 |
26 |
2 |
5 |
130 |
5 |
17 |
27 |
1 |
1 |
42 |
3 |
16 |
61 |
6,5 |
10 |
28 |
1 |
1 |
23 |
1 |
2 |
127 |
2,5 |
13 |
29 |
1 |
2 |
24 |
1 |
1 |
84 |
3,5 |
11 |
30 |
2 |
1 |
32 |
2 |
4 |
45 |
3,5 |
2 |
31 |
3 |
1 |
29 |
2 |
7 |
123 |
3,5 |
12 |
32 |
3 |
2 |
32 |
3 |
13 |
115 |
4,5 |
9 |
33 |
4 |
1 |
43 |
4 |
23 |
112 |
3 |
1 |
34 |
3 |
1 |
34 |
1 |
3 |
42 |
3,5 |
2 |
35 |
2 |
2 |
29 |
2 |
6 |
100 |
5 |
13 |
36 |
2 |
1 |
43 |
3 |
15 |
167 |
3,5 |
6 |
37 |
2 |
1 |
41 |
4 |
21 |
158 |
3,5 |
3 |
38 |
1 |
2 |
27 |
2 |
5 |
98 |
5 |
13 |
39 |
1 |
1 |
21 |
1 |
1 |
52 |
3 |
2 |
40 |
1 |
1 |
52 |
5 |
26 |
170 |
7 |
2 |
41 |
1 |
1 |
29 |
3 |
7 |
100 |
5 |
7 |
42 |
4 |
2 |
42 |
3 |
15 |
140 |
5 |
3 |
43 |
4 |
1 |
29 |
2 |
7 |
78 |
5,5 |
5 |
44 |
3 |
2 |
44 |
3 |
17 |
136 |
2 |
3 |
45 |
3 |
2 |
30 |
3 |
8 |
125 |
5 |
8 |
46 |
3 |
1 |
24 |
1 |
3 |
142 |
3 |
13 |
47 |
2 |
2 |
42 |
3 |
15 |
138 |
2 |
3 |
48 |
2 |
1 |
31 |
4 |
12 |
97 |
5 |
7 |
49 |
1 |
1 |
37 |
4 |
12 |
130 |
7 |
9 |
50 |
1 |
1 |
32 |
1 |
2 |
140 |
7,5 |
18 |
Используя групповой метод, проведем классификацию данных и составим таблицы.
1. Номинальная шкала:
а) распределение несчастных случаев по цехам
Таблица 2
Номер цеха |
1 |
2 |
3 |
4 |
Кол-во несч. случаев |
18 |
14 |
11 |
7 |
б) распределение несчастных случаев по полу пострадавших
Таблица 3
Пол |
Мужчины (1) |
Женщины (2) |
Кол-во несч. случаев |
35 |
15 |
в) соответствующая а) и б) комбинационная таблица
Таблица 4
Номер цеха |
1
|
2
|
3
|
4
|
Пол | ||||
Мужчины |
13 |
11 |
7 |
4 |
Женщины |
5 |
3 |
4 |
3 |
На основании проведенной классификации можно сделать следующие выводы (по моде распределений):
а) чаще всего несчастные случаи происходят в первом цехе;
б) к несчастным случаям в большей степени предрасположены мужчины.
2. Порядковая шкала:
г) распределение несчастных случаев по разряду (классу) пострадавших
Таблица 5
Квалификация |
1 |
2 |
3 |
4 |
5 |
Кол-во несч. случаев |
12 |
16 |
14 |
5 |
3 |
Вывод: Травмированию подвержены в большей степени рабочие 2 разряда.
Приведенные таблицы можно представить графически
3. Для непрерывной переменной Х (шкала отношений) – «число дней нетрудоспособности»- построим эмпирическую функцию распределения.
Выделим минимальный хmin = х(1) и максимальный хmax = х(n) элементы выборки;
xmin= 1, xmax= 27.
Разобьем область задания случайной величины Х на L интервалов группирования. Для определения числа L интервалов искусственного группирования пользуются эмпирическими формулами
L = ,L ≤5 lg n, L = 1 + 3.32lg n . (формула Старджеса). (1)
L = 7,07, L ≤ 8,49, L = 6,64.
Возьмем L = 7. Определение ширины интервалов гистограммы (при равноточном группировании)
(2)
h = (27-1)/ 7= 3,7. Округляя до целого, получаем h = 4.
Для того чтобы x(1) и х(n) попали внутрь соответственно 1-го и L-го интервалов группирования, границы х(1) и х(n) корректируют следующим образом:
x'min = x(1) - h/2,
x'max = x(n) + h/2.
В нашем случае мы выбираем x'min = x(1) . Следовательно, границы интервалов и интервалы будут иметь вид
1, 5, 9, 13, 17, 21, 25, 29; [1,5[, [5,9[, [9,13[, [13,17[, [17,21[, [21,25[, [25-29].
Далее приступаем к заполнению таблицы 6 .
Таблица 6
Частичные интервалы |
Рабочее поле для подсчета частот |
Абс. частоты nj |
Плотность частоты, wj=nj/h |
Середины интервалов |
Относ. частоты, W*j=wj/n |
Накоплен-ные частоты F*(x)=Wj h |
1 – 5 5 - 9 9 - 13 13 - 17 17 - 21 21 - 25 25 - 29
|
\\\\\\\\\\\\\\ \\\\\\\\\\\\ \\\\\\\\\\\\ \\\\\\ \\\ \ \\ |
14 12 12 6 3 1 2 |
3,5 3 3 1,5 0,75 0,25 0,5
|
3 7 11 15 19 23 27 |
0,07 0,06 0,06 0,03 0,015 0,005 0.01
|
0,28 0,52 0,76 0,88 0,94 0,96 1.00 |
Данные табл. 6 используем для графического изображения выборочного статистического ряда в виде гистограммы плотности частоты wj и относительных частот W*j (рис. 1), либо в виде гистограммы накопленных частот (эмпирической функции распределения) (рис. 2). Это графическое изображение позволяет представить в наглядной форме закономерности, присущие генеральной совокупности.
Рис. 1. Гистограммы плотности частоты wj и относительных частот W*j
Рис. 2. Гистограмма накопленных частот F*(x)
I I. Вторым этапом обработки статистических данных является получение различных числовых характеристик:
эмпирического среднего, вокруг которого группируются наблюдения;
среднего квадратического отклонению - меры рассеяния наблюдений вокруг эмпирического среднего;
показателя асимметрии As, характеризующего скошенность гистограммы;
показателя эксцесса Es, характеризующего островершинность гистограммы.
Эти характеристики вычисляются с помощью начальных mk и центральных μk эмпирических моментов k-го порядка изучаемой случайной величины X по следующим формулам:
, (3)
где k – порядок момента, k = 1, 2, 3, .... Для группированных данных
, (4)
где L – количество интервалов группирования, nj - количество элементов выборки, попавших в j интервал, xj – значение случайной величины, равное середине интервала группирования.
Эмпирические центральные моменты порядка k, полученные по негруппированной выборке из генеральной совокупности, равны:
, (5)
где k – порядок момента, k = 1, 2, 3, .... Для группированных данных
. (6)
Начальный момент первого порядка (k = 1)
называется выборочным средним, выборочным математическим ожиданием, или средним арифметическим значением выборки.
Центральный момент второго порядка μ2 называется дисперсией и обозначается D. Величина называетсясреднеквадратическим отклонением. Для того, чтобы получить несмещенную оценку дисперсии, необходимо воспользоваться выражениями
, (7)
, (8) соответственно для негруппированной и группированной выборок. Среднеквадратическое отклонение . В практических вычислениях для дисперсии S2 часто удобна формула
. (9)
В качестве характеристики формы распределения, отражающей асимметрию распределения, служит коэффициент асимметрии
. (10)
Неприведенный коэффициент эксцесса Es также является характеристикой формы распределения, а именно его островершинности, и определяется выражением
. (11)
Величина = Es - 3 называется приведенным коэффициентом эксцесса.
В табл. 7 представлены результаты расчета названных выше числовых характеристик для рассматриваемого примера.
Числовые параметры, полученные на основе моментов, являются интегральными характеристиками распределения. Вторая группа параметров характеризует отдельные значения функции распределения. К ним относятся квантили. Квантиль хр (порядка р) случайной величины Х с функцией распределения F(x) называется решение уравнения
F(хp) = p.
Квантили можно получить на основании вариационного ряда, закона распределения дискретной или плотности вероятности непрерывной случайных величин. В нашем примере оценим квантили с использованием гистограммы абсолютных частот.
Таблица 7
Числовые характеристики |
Негруппированные данные |
Группированные данные |
|
9,04 |
9,64 |
S2 |
37,02 |
39,58 |
6,08 |
6,29 | |
As |
1,01 |
0,99 |
Es |
3,85 |
3,58 |
|
0,85 |
0,58 |
Медиану Ме (квантиль уровня р = 0.5 – х0,5) можно получить по следующему алгоритму:
1. Находим медианный интервал. Для определения этого интервала сумму частот делят пополам и на основе последовательного суммирования частот первого, второго и т.д. интервалов находят интервал, где расположена медиана. Для нашей гистограммы
(табл. 6) это второй интервал [5,9[.
2. Приближенное значение Ме в медианном интервале рассчитывается по формуле
, (12)
где х0 – нижняя граница медианного интервала;
i - порядковый номер медианного интервала;
Su(m-1) - сумма накопленных частот в интервалах предшествующих медианному;
nm - частота медианного интервала.
. (13)
Другие квантили, например 1-я и 3-я квартиль, могут быть получены по приведенному алгоритму с использованием формул
, (14)
, (15)
где х0 – нижняя граница медианного интервала;
i - порядковый номер квартильного интервала;
Suх0.25, Suх0.75, - суммы накопленных частот в интервалах предшествующих квартильным;
nх0,25 , nх0,75 - частоты квартильных интервалов.
В нашем примере
Выводы:
а) в результате несчастных случаев на производстве работники нетрудоспособны в среднем 9 дней;
б) распределение числа дней нетрудоспособности имеет правостороннюю асимметрию;
в) половина всех травмированных нетрудоспособны более недели, а 25% более 12 дней.