Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Южно-Российский государственный технический университет (Новочеркасский политехнический институт) (ЮРГТУ (НПИ))

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

СборПракПосл.doc

Скачиваний:

Добавлен:

11.04.2015

Размер:

4.16 Mб

Скачать

☆

<<< < Предыдущая 12 / 92 3 4 5 6 7 8 9 > Следующая >>>

Содержание работы.

Описательная статистика позволяет с помощью специальных методов осуществить удобное представление данных для последующего анализа в виде частотных распределений, графических изображений и различных числовых характеристик.

I. Первым этапом статистической обработки данных является их шкалирование и наглядное представление. Для этого используются табличный (групповой) и графический методы.

Табличный метод анализа заключается в группировании данных в виде таблиц по определенным признакам.

Графический метод сводится к построению гистограмм ( двухмерных, трехмерных), диаграмм рассеяния и др. графиков.

Применение названных методов рассмотрим на примере. В таблице П 1 представлены данные о несчастных случаях на производстве. Проанализируем первых 50 строк таблицы (Таблица 1)

Таблица 1

N	Цех	Пол	Возраст	Квалификация	Стаж	t от обучения	t от нач.смены	Кол-во дней нетр.
1	1	1	21	1	1	125	3,5	27
2	1	1	31	3	10	74	5,5	3
3	2	1	28	1	6	82	7	4
4	2	1	42	3	15	63	6,5	11
5	3	2	38	2	16	98	3,5	4
6	4	2	38	2	15	102	4	5
7	2	1	25	1	4	142	3	16
8	1	1	27	2	5	160	5	21
9	1	2	31	2	8	157	3	12
10	2	1	27	2	5	110	5,5	11
11	4	1	34	2	8	120	6	3
12	3	1	28	2	5	147	5	11
13	1	2	29	3	8	124	5	8
14	1	1	34	3	11	66	5	6
15	3	1	28	2	8	88	5,5	6
16	3	1	21	1	1	125	3,5	26
17	2	1	37	5	16	176	4	12
18	1	2	39	4	14	145	7	6
19	1	1	44	3	12	163	3,5	6
20	2	2	29	2	8	160	3	13
21	4	2	26	2	5	94	5	11
22	4	1	23	1	2	97	6	10
23	3	1	33	3	10	68	5	7
24	2	1	48	5	24	163	1,5	3
25	2	1	33	1	4	173	1,5	18
26	1	1	26	2	5	130	5	17
27	1	1	42	3	16	61	6,5	10
28	1	1	23	1	2	127	2,5	13
29	1	2	24	1	1	84	3,5	11
30	2	1	32	2	4	45	3,5	2
31	3	1	29	2	7	123	3,5	12
32	3	2	32	3	13	115	4,5	9
33	4	1	43	4	23	112	3	1
34	3	1	34	1	3	42	3,5	2
35	2	2	29	2	6	100	5	13
36	2	1	43	3	15	167	3,5	6
37	2	1	41	4	21	158	3,5	3
38	1	2	27	2	5	98	5	13
39	1	1	21	1	1	52	3	2
40	1	1	52	5	26	170	7	2
41	1	1	29	3	7	100	5	7
42	4	2	42	3	15	140	5	3
43	4	1	29	2	7	78	5,5	5
44	3	2	44	3	17	136	2	3
45	3	2	30	3	8	125	5	8
46	3	1	24	1	3	142	3	13
47	2	2	42	3	15	138	2	3
48	2	1	31	4	12	97	5	7
49	1	1	37	4	12	130	7	9
50	1	1	32	1	2	140	7,5	18

Используя групповой метод, проведем классификацию данных и составим таблицы.

1. Номинальная шкала:

а) распределение несчастных случаев по цехам

Таблица 2

Номер цеха	1	2	3	4
Кол-во несч. случаев	18	14	11	7

б) распределение несчастных случаев по полу пострадавших

Таблица 3

Пол	Мужчины (1)	Женщины (2)
Кол-во несч. случаев	35	15

в) соответствующая а) и б) комбинационная таблица

Таблица 4

Номер цеха	1	2	3	4
Пол	1	2	3	4
Мужчины	13	11	7	4
Женщины	5	3	4	3

На основании проведенной классификации можно сделать следующие выводы (по моде распределений):

а) чаще всего несчастные случаи происходят в первом цехе;

б) к несчастным случаям в большей степени предрасположены мужчины.

2. Порядковая шкала:

г) распределение несчастных случаев по разряду (классу) пострадавших

Таблица 5

Квалификация	1	2	3	4	5
Кол-во несч. случаев	12	16	14	5	3

Вывод: Травмированию подвержены в большей степени рабочие 2 разряда.

Приведенные таблицы можно представить графически

3. Для непрерывной переменной Х (шкала отношений) – «число дней нетрудоспособности»- построим эмпирическую функцию распределения.

Выделим минимальный х_min = х₍₁₎и максимальный х_max = х_(n) элементы выборки;

x_min= 1, x_max= 27.

Разобьем область задания случайной величины Х на L интервалов группирования. Для определения числа L интервалов искусственного группирования пользуются эмпирическими формулами

L = ,L ≤5 lg n, L = 1 + 3.32lg n . (формула Старджеса). (1)

L = 7,07, L ≤ 8,49, L = 6,64.

Возьмем L = 7. Определение ширины интервалов гистограммы (при равноточном группировании)

(2)

h = (27-1)/ 7= 3,7. Округляя до целого, получаем h = 4.

Для того чтобы x₍₁₎ и х_(n)попали внутрь соответственно 1-го и L-го интервалов группирования, границы х₍₁₎ и х_(n)корректируют следующим образом:

x^'_min = x₍₁₎ - h/2,

x^'_max = x_(n) + h/2.

В нашем случае мы выбираем x^'_min = x₍₁₎. Следовательно, границы интервалов и интервалы будут иметь вид

1, 5, 9, 13, 17, 21, 25, 29; [1,5[, [5,9[, [9,13[, [13,17[, [17,21[, [21,25[, [25-29].

Далее приступаем к заполнению таблицы 6 .

Таблица 6

Частичные интервалы

Рабочее поле для подсчета частот

Абс. частоты

n_j

Плотность

частоты, w_j=n_j/h

Середины интервалов

Относ. частоты,

W^*_j=w_j/n

Накоплен-ные частоты

F^*(x)=W_j h

1 – 5

5 - 9

9 - 13

13 - 17

17 - 21

21 - 25

25 - 29

\\\\\\\\\\\\\\

\\\\\\\\\\\\

\\\\\\

\\\

3,5

1,5

0,75

0,25

0,5

0,07

0,06

0,03

0,015

0,005

0.01

0,28

0,52

0,76

0,88

0,94

0,96

1.00

Данные табл. 6 используем для графического изображения выборочного статистического ряда в виде гистограммы плотности частоты wj и относительных частот W^*_j (рис. 1), либо в виде гистограммы накопленных частот (эмпирической функции распределения) (рис. 2). Это графическое изображение позволяет представить в наглядной форме закономерности, присущие генеральной совокупности.

Рис. 1. Гистограммы плотности частоты w_j и относительных частот W^*_j

Рис. 2. Гистограмма накопленных частот F^*(x)

I I. Вторым этапом обработки статистических данных является получение различных числовых характеристик:

эмпирического среднего, вокруг которого группируются наблюдения;
среднего квадратического отклонению - меры рассеяния наблюдений вокруг эмпирического среднего;
показателя асимметрии As, характеризующего скошенность гистограммы;
показателя эксцесса Es, характеризующего островершинность гистограммы.

Эти характеристики вычисляются с помощью начальных m_k и центральных μ_kэмпирических моментов k-го порядка изучаемой случайной величины X по следующим формулам:

, (3)

где k – порядок момента, k = 1, 2, 3, .... Для группированных данных

, (4)

где L – количество интервалов группирования, n_j - количество элементов выборки, попавших в j интервал, x_j – значение случайной величины, равное середине интервала группирования.

Эмпирические центральные моменты порядка k, полученные по негруппированной выборке из генеральной совокупности, равны:

, (5)

где k – порядок момента, k = 1, 2, 3, .... Для группированных данных

. (6)

Начальный момент первого порядка (k = 1)

называется выборочным средним, выборочным математическим ожиданием, или средним арифметическим значением выборки.

Центральный момент второго порядка μ₂ называется дисперсией и обозначается D. Величина называетсясреднеквадратическим отклонением. Для того, чтобы получить несмещенную оценку дисперсии, необходимо воспользоваться выражениями

, (7)

, (8) соответственно для негруппированной и группированной выборок. Среднеквадратическое отклонение . В практических вычислениях для дисперсии S²часто удобна формула

. (9)

В качестве характеристики формы распределения, отражающей асимметрию распределения, служит коэффициент асимметрии

. (10)

Неприведенный коэффициент эксцесса Es также является характеристикой формы распределения, а именно его островершинности, и определяется выражением

. (11)

Величина  = Es - 3 называется приведенным коэффициентом эксцесса.

В табл. 7 представлены результаты расчета названных выше числовых характеристик для рассматриваемого примера.

Числовые параметры, полученные на основе моментов, являются интегральными характеристиками распределения. Вторая группа параметров характеризует отдельные значения функции распределения. К ним относятся квантили. Квантиль х_р(порядка р) случайной величины Х с функцией распределения F(x) называется решение уравнения

F(х_p) = p.

Квантили можно получить на основании вариационного ряда, закона распределения дискретной или плотности вероятности непрерывной случайных величин. В нашем примере оценим квантили с использованием гистограммы абсолютных частот.

Таблица 7

Числовые характеристики	Негруппированные данные	Группированные данные
	9,04	9,64
S²	37,02	39,58
	6,08	6,29
As	1,01	0,99
Es	3,85	3,58
	0,85	0,58

Медиану Ме (квантиль уровня р = 0.5 – х_0,5) можно получить по следующему алгоритму:

1. Находим медианный интервал. Для определения этого интервала сумму частот делят пополам и на основе последовательного суммирования частот первого, второго и т.д. интервалов находят интервал, где расположена медиана. Для нашей гистограммы

(табл. 6) это второй интервал [5,9[.

2. Приближенное значение Ме в медианном интервале рассчитывается по формуле

, (12)