Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Прикладная статистика Для презентации в интерне...doc
Скачиваний:
24
Добавлен:
11.11.2019
Размер:
3.81 Mб
Скачать

2.2.2. Квартили, декатили, персентили

Медиана делит выборку на две части: половина вариант меньше медианы, половина – больше медианы. Можно найти три числа: Q1, Q2, Q3, которые аналогичным образом делят выборку на 4 равные части. Эти числа называются квартилями. Число Q2 совпадает с медианой , число Q1 называется нижней квартилью, число Q3 называется верхней квартилью. В теории вероятностей квартилями непрерывной случайной величины Х называются числа Q1, Q2, Q3, определяемые из условия

Р(X < Q1) = P(Q1 < X < Q2) = P(Q2 < X < Q3) = P(X > Q3) = 0,25.

Точно так же можно найти 9 чисел: D1, D2, …, D9, которые разбивают выборку (площадь под графиком f(х)) на десять равных частей. Эти числа называются декатилями. Если разбить выборку (площадь под графиком f(х)) на сто равных частей, точки деления называются персентилями. Их 99, они обозначаются Р1, Р2, …, P99. Ясно, что P25 = Q1, Р50 = Q2 = , Р75 = =Q3. Числа Q1, Q2, Q3, Р1, Р2, …, P99 находятся точно так же, как . Например, Q1нак = 0,25, тогда

,

где < 0,25; > 0,25; Q1  [xi-1, x i,).

2.2.3. Измерение разброса: размах, выборочная

дисперсия, выборочное среднее квадратическое

отклонение (стандартное отклонение),

коэффициент вариации

Размах R – простейшая мера разброса значений данной выборки. Если xmax – максимальная, хmix – минимальная варианты, то R = xmax - хmix. Этой величиной пользуются при работе с малыми выборками.

Более эффективные меры разброса должны учитывать все элементы выборки. Одна из самых распространенных мер называется выборочной дисперсией S2. Она вычисляется точно так же, как дисперсия дискретной случайной величины. Следовательно, выборочная дисперсия оценивает средний разброс значений выборки относительно выборочного среднего.

= , где k - число разных вариант выборки.

Если выборка сгруппирована, частота i-го интервала ni умножается на середину интервала – число (хi + хi-1)/2. Соответственно корень квадратный из выборочной дисперсии называется выборочным средним квадратическим отклонением и обозначается S. Другое часто встречающееся название для S – стандартное отклонение; оно короче, поэтому мы будем чаще использовать его.

Найдем эти параметры для выборки 2.

S2 = 3,152 * 0,1 + 3,452 * 0,22 + 3,752 * 0,34 + 4,052 * 0,22 + 4,352 * 0,1 + +4,652 * 0,02 - (3,77)2 = 0,127; S= 0,36.

В среднем масса ребенка отличается от средней массы на 0,36 кг. В теории вероятностей для нормального закона распределения доказываются так называемые “правило двух сигм” и “правило трех сигм”: вычисляются вероятности того, что нормально распределенная случайная величина отклонится по модулю от своего математического ожидания а не более чем на два или три средних квадратических отклонения .

Р(X - a< 2) = 0,9545; P(Х - а< 3) = 0,9973.

Эти правила приблизительно выполняются для большинства унимодальных законов распределения и соответственно выборок из таких генеральных совокупностей:

  1. Более 95% значений выборки лежат в интервале ( - 2S, + 2S).

  2. Более 99% значений выборки лежат в интервале ( - 3S, + 3S).

Для выборки 2 имеем :

- 2S = 3,77 - 0,36 * 2 = 3,05; - 3S = 3,77 - 0,36 * 3= 2,69;

+ 2S = 3,77 + 0,36 * 2 = 4,49; + 3S = 3,77 + 0,36 * 3 = 4,85.

В интервале (3,05; 4,49) лежат 48 значений (или 96%) выборки; в интервале (2,69; 4,85) лежат 100% значений выборки.

Коэффициент вариации V служит для сравнения стандартных отклонений нескольких выборок и вычисляется по формуле V=S/ .

Если коэффициенты вариации оказались величинами одного порядка, то средние рассеяния данных относительно среднего в этих выборках можно считать примерно равными.

Рассмотрим простой пример. Пусть массы трех килограммовых пакетов с сахаром оказались такими: х1 = 0,995 кг; х2 = 1 кг; x3 = 1,005 кг. Тогда 1 = 1,00 кг; S1 = 4,08 * 10-3 кг; V1 = 4,08 * 10-3.

Допустим так же, что масса некоторого железобетонного блока должна равняться 100 кг, а массы трех отобранных блоков оказались равными 99,5 кг, 100,00 кг и 100,5 кг. Отсюда 2 = 100 кг; S2 = 0,408 кг; V2 = 4,08 * 10-3.

Пусть, наконец, некоторый студент, сдавая сессию, получил такие оценки: 4, 3, 5. Значит, 3 = 4,0; S3 = 0,82; V3 = 0,21.

Сравнивая три найденных коэффициента вариации, заключаем, что точности работы устройств, развешивающих сахар в пакеты и изготовляющих железобетонные блоки, одинаковы. Хотя в первом случае максимальное отклонение массы от номинала составило 5 г, а во втором случае в 100 раз больше – 500 г. Зато разброс оценок студента значительно больше: V3  50 V1.