Количественные методы анализа хозяйственной деятельности - Ричард Томас
.pdfСВОДНАЯ СТАТИСТИКА |
3 3 |
цесс выбора между двумя предприятиями становится более сложным. Наиболее амбициозные работники предпочтут работать на предприятии А, а низкоопла чиваемые работники — на предприятии Б.
Понедельная заработная плата |
А |
Предприятие |
(ф. ст.) |
Б |
|
Средняя |
400 |
420 |
Рис. 1.19. Сравнение средних |
|
|
Понедельная заработная плата |
|
Предприятие |
(Ф. ст.) |
А |
Б |
Средняя |
400 |
420 |
Максимальная |
1000 |
500 |
Минимальная |
350 |
350 |
Рис. 1.20. Сравнение предприятий
Данный пример иллюстрирует ситуацию, при которой средние не дают полной картины: помимо показателей среднего значения полезно получить данные по разбросу в двух наборах данных. В данном разделе мы рассмотрим некоторые меры разброса, которые можно использовать для этих целей.
1.8.1. Размах вариации
Размах вариации — это самая простая мера разброса набора данных. Размах вариации — промежуток между наибольшим и наименьшим значениями рас пределения. На последующих примерах вы познакомитесь с порядком расчета размаха вариации.
Т Определение. Размах вариации — это простая мера вариации, вычисляем путем вычитания наименьшего значения в наборе данных из наибольшего. •
Пример 1
Найдем размах вариации на основании значений недельного дохода не большого розничного предприятия за последние десять недель. (Данные приве дены в тыс. ф. ст.)
12, 20, 15, 8, 5, 14, 22, 13, 10, 17.
Чтобы получить размах вариации, необходимо найти наибольшее и наи меньшее значения в последовательности данных. Таковыми в данном приме ре являются цифры 22 (максимальное значение) и 5 (минимальное значе ние). Следовательнй, размах вариации рассчитывается следующим образом:
Размах вариации = 22 — 5 = 17.
Таким образом, для этих данных размах вариации составляет 17 000 ф. ст.
3 4 |
ГЛАВА 1 |
Пример 2
В таблице приведены данные по количеству отсутствовавших на работе за последние 50 дней:
Количество |
отсутствовавших: |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
1 0 |
Количество |
дней: |
2 |
5 |
7 |
12 |
11 |
6 |
4 |
3 |
Согласно данной таблице, наибольшее количество отсутствовавших за день составило 10 человек, а наименьшее — 3 человека. Таким образом, размах вариации равен 10 — 3 = 7 человек.
Пример 3
В таблице приведены данные объема производства небольшого предприя тия по производству электроники за период в 40 недель:
Объем производства |
|
|
|
|
|
|
(тыс. долл. США): |
2 0 - |
2 4 - |
2 8 - |
3 2 - |
3 6 - |
4 0 - |
Количество недель: |
3 |
9 |
12 |
15 |
7 |
4 |
Согласно данной таблице, наибольшее возможное значение находится ниже 44 000 долл. США (при допушении, что интервалы фуппирования имеют оди наковую протяженность). Аналогично, наименьшее возможное значение состав ляет 20 000 долл. Отсюда для этих данных размах вариации равняется 44 000 — 20 000 = 24 000 долл.
1.8.2. Межквартильный размах
Размах, описанный в предьщущем разделе, имеет ряд недостатков. В це лом, размах нельзя удовлетворительно применять при сравнении наборов дан ных, так как он может быть легко искажен экстремальными отдельными зна чениями. Например, в следующей таблице приведены данные по недельной заработной плате 100 работников предприятий А и Б соответственно:
Недельная заработная
плата (ф. ст.): |
200- |
300- |
400 - |
500 |
- |
600- |
700- |
800- |
900 |
Количество |
|
|
|
|
|
|
|
|
|
работников: предпр. А: |
25 |
38 |
23 |
13 |
|
0 |
0 |
0 |
1 |
предпр. Б: |
25 |
38 |
23 |
14 |
|
0 |
0 |
0 |
0 |
Размах для каждого набора данных составляет соответственно:
для предприятия А размах = 1000 — 200 = 800 ф. ст. для предприятия Б размах = 600 — 200 = 400 ф. ст.
Как видно, вариация согласно размаху для предприятия А в два раза боль ше вариации для предприятия Б. Однако при исследовании исходных таблиц частот эту разницу можно отнести на счет единственного работника, получаю-
СВОДНАЯ СТАТИСТИКА |
35 |
щего в интервале 900—1000, в сравнении с еще одним работником предприя тия Б, получающим в интервале 500—600. Таким образом, одно экстремальное значение полностью исказило значение размаха. Поэтому на этот размах не стоит полагаться при проведении приемлемого сравнения наборов данных. Сле довательно, требуется альтернативный способ определения величины вариации. Для этих целей приемлемой величиной считается значение межквартильного размаха. Межквартильный размах получают путем исключительного рассмотре ния «размаха» для центральных 50% значений набора данных. На рис. 1.21 пред ставлено распределение набора данных. Если мы опустим 25% наименьших зна чений и 25% наибольших, тогда мы получим, как это показано на рисунке, размах, включающий центральные 50% значений, т. е. межквартильный размах. Два крайних значения из центральных 50% называются квартилями. Межквар тильный размах (IQR) — расстояние между меньшей квартилью (Q^) и боль шей квартилью (Qi), как это показано на рисунке. Квартили можно получить во многом аналогично тому, как мы определяли медиану ранее. Ведь медиана — это середина распределения и является [(и + 1)/2]-м порядковым значением.
Рис. 1.21. Расчет межквартильного размаха
Аналогично, меньшая квартиль находится на расстоянии в 1/4 от начала распределения, а большая квартиль — на расстоянии в 3/4. Таким образом, эти квартили можно рассчитать следующим образом:
Меньшая квартиль, 0, |
п + \ -е порядковое значение; |
Большая квартиль, Qj = [^/4{п + 1)|-е порядковое значение. Имея эти значения, получаем межквартильный размах:
IQR = (Зз - 0..
• Определение. Межквартильный размах — это разница между большей меньшей квартилями. Данное значение показывает размах для центральных данных. •
В последующих примерах рассмотрим порядок расчета межквартильного размаха.
3 6 |
ГЛАВА 1 |
Пример 1
В таблице приведены данные произвольной выборки из 15 акций, котиру емых на Лондонской фондовой бирже:
2.20 |
1.50 |
3.00 |
5.55 |
4.42 |
3.17 |
0.96 |
7.83 |
1.65 |
2.58 |
2.100.58 1.75 1.20 3.74
|
Расположим эти значения в числовой |
последовательности: |
|
|
|||||||||
|
0.58, |
0.96, |
1.20, |
1.50, |
1.65, |
1.75, |
2.10, |
2.20, |
2.58, |
3.00, |
3.17, |
3.74, |
4.42, |
5.55, |
7.83. |
|
|
|
|
|
|
|
|
|
|
|
|
|
В данном примере значение п = 15. |
|
|
|
|
|
|
||||||
|
Таким образом, |
|
|
|
|
|
|
|
|
|
|
п + \) J |
\5+\) |
_(\6) |
|
|
|
|
|||
~~А~)~[ |
4 |
)~\Т)~ |
^'^ |
порядковое |
значение. |
|
|||
Четвертое |
значение |
в |
последовательности |
равно |
1.50. |
Следователь |
|||
но, Q = 1.50 |
ф. ст. |
|
|
|
|
|
|
|
|
Аналогично, |
|
|
|
|
|
|
|
|
|
Qi = ^4(п |
+ |
1) = |
V4(15 |
+ 1) = |
3/4(16) = 12-е порядковое |
значение. |
|||
Двенадцатое |
значение в последовательности |
равно |
3.74. Следовательно, |
Qy = 3.74 ф. ст. Итак, имея значения квартилей, мы можем определить межквартильный размах как IQR = Q^ — Q] = 3.74 — 1.50 = 2.24 ф. ст.
Пример 2
Найдем значение межквартильного размаха на основании таблицы данных по количеству единиц определенных товарных запасов на складе за последние 100 дней:
Единиц товарных запасов: |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
10 |
||
Количество дней: |
|
4 |
12 |
|
22 |
20 |
16 |
12 |
8 |
6 |
|
В данном примере п = |
100. |
|
|
|
|
|
|
|
|
|
|
Таким образом, |
|
|
|
|
|
|
|
|
|
|
|
л + П |
riOO + l^i |
ПОП |
Г.И |
|
порядковое |
значение. |
|
|
|||
~^)~[ |
4—)~{'~4~)~^^^)'^ |
|
|
(25'/4) порядковое значение в данной таблице равно 5. Это видно из того, что первые четыре значения равны 3, а последующие двенадцать значений все равны 4. Таким образом, 16-е значение равно 4. Исходя из этого, следующие 22 значения все равны 5. То есть (25^/4) порядковое значение — 5. Отсюда, d = 5 единица.м товарных запасов.
Аналогично,
Q, = 3/4(л + 1) = 3/4(100 + 1) = 3/4(101) = (753/4)-е порядковое значение.
|
СВОДНАЯ СТАТИСТИКА |
37 |
Изучение таблицы частот показывает, что 74-е значение есть 7, а 75-е — |
||
8. Отсюда (75^4)-е порядковое значение — 8. |
|
|
Следовательно, Оз = 8 |
единицам товарных запасов. |
|
Итак, межквартильный |
размах составляет: IQR = Q^— Q, = S — 5 = 3 еди |
|
ницам. |
|
|
Пример 3
Найдем значение межквартильного размаха из таблицы данных по недель ной заработной платы группы работников:
Недельная |
заработная |
|
|
|
|
|
|
|
плата (ф. ст.): |
300- |
400 - |
500- |
600 - |
700- |
800- |
||
Количество |
|
|
|
|
|
|
|
|
работников: |
28 |
47 |
49 |
17 |
9 |
5 |
||
В данном примере общее количество работников л = 155. |
||||||||
Таким |
образом, |
|
|
|
|
|
|
|
(3, |
п + \ |
155 + 1 |
156 |
= 39-е |
значение. |
|
|
Аналогично",
ft = V4(« + 1) = 3/4(155 + 1) = 3/4(156) = 117-е значение.
Данные значения могут быть получены с помощью кривой аналогично тому, как мы ранее определяли медиану. На рис. 1.22 представлена кривая на бора данных, вычерченная на основании значений таблицы нарастающей час тотности:
Недельная заработная |
|
|
|
|
|
|
|
плата (ф. ст.): |
300 |
400 |
500 |
600 |
700 |
800 |
900 |
Нарастающая |
|
|
|
|
|
|
|
частотность: |
О |
28 |
75 |
124 |
141 |
150 |
155 |
200 |
|
|
|
|
|
|
|
117-е
значение
300 |
400*v |
500 |
^ 6 0 0 |
700 |
800 |
900 |
|
Q i |
|
О з |
|
|
|
Рис. 1.22. Определение квартилей
3 8 |
ГЛАВА 1 |
|
|
Значения квартилей, полученные с помощью кривой, как это показано на |
|
рис. 1.22, следующие: |
Q, = 425 ф. ст. |
|
|
меньшая квартиль, |
|
|
большая квартиль, |
Q^ = 585 ф ст |
Отсюда межквартильный размах IQR - Q^ — Q^ = 585 — 425 = 160 ф. ст
1.8.3. Среднеквадратическое отклонение
Одной из наиболее важных характеристик вариации является значение среднеквадратического отклонения, обычно обозначаемое л или ст Основное достоинство среднеквадратического отклонения состоит в том, что его можно рассчитать с помощью объективной математической формулы, а не путем оце ночных методов, как в случае с межквартильным размахом Среднеквадратичес кое отклонение выборки значений можно рассчитать по следующей формуле
Среднеквадратическое отклонение s =\1-=-^ — • V п
Как вариант, среднеквадратическое отклонение может быть рассчитано на основании данных таблиц частот с помощью одной из следующих формул'
Среднеквадратическое отклонение s =i |
^гт |
"ipv"?—^ ' • |
На последующих примерах вы познакомитесь с порядком расчета средне квадратического отклонения
Т Определение. Среднеквадратическое отклонение есть мера вариации, полу чаемая путем извлечения квадратного корня из средней суммы квадратов отююнений между каждым значением и арифметической средней •
Пример 1
Ниже приведено количество сверхурочных часов, отработанных фуппой из
десяти работников: |
|
|
|
|
|
|
|
||
2 |
3 |
5 |
1 |
0 |
1 |
7 |
4 |
2 |
5 |
Количество |
|
сверхурочных |
часов |
— это |
переменная, обозначаемая х, д^ш |
которой мы хотим найти значение среднеквадратического отклонения. Сначала находим среднюю арифметическую:
п10 ' •
Теперь мы можем вычислить значения (х — J ) путем вычитания значения среднего (х) из каждого значения х, как это показано ниже'
{х -хУ |
- 1 0 |
2 - 2 - 3 - 2 4 |
1 |
- 1 2 |
Далее возводим все эти значения в квадрат:
(х -хУ- |
1 О 4 4 9 4 16 1 |
1 4 |
|
|
|
|
СВОДНАЯ СТАТИСТИКА |
3 9 |
|
Находим сумму значений: |
|
|
|
|
||
{х -хУ |
|
= 44. |
|
|
|
|
Таким образом, среднеквадратическое отклонение рассчитывается следую |
||||||
щим образом: |
|
|
|
|
|
|
IZ{x-xf |
[44 г-г |
- , |
„ |
„ |
|
|
= д=-^ |
|
^—= — = V4.4= |
2.1 с точностью до одной десятой. |
|
||
\ |
п |
V 10 |
|
|
|
|
Пример 2
Рассмотрим таблицу, содержащую данные по количеству единиц товарных запасов за период в сто дней:
Единиц товарных запасов: |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Количество дней: |
4 |
12 |
22 |
20 |
16 |
12 |
8 |
6 |
Средняя арифметическая и среднеквадратическое отклонение по этим дан ным можно получить, сведя последние в таблицу, как это показано ниже. Ко личество единиц товарных запасов есть рассматриваемая переменная, обознача емая X, а количество дней есть соответствующая частота, обозначаемая / Сна чала рассчитываем среднюю арифметическую (х) по формуле Y.-f^/T.f • Затем получаем остающиеся три колонки значений.
X |
f |
fx |
X — X |
(х-хГ |
f(x -хУ |
3 |
4 |
12 |
-3.3 |
10.89 |
43.56 |
4 |
12 |
48 |
-2.3 |
5.29 |
63.48 |
5 |
22 |
110 |
-1.3 |
1.69 |
37.18 |
6 |
20 |
120 |
-0.3 |
0.09 |
1.80 |
7 |
16 |
112 |
0.7 |
0.49 |
7.84 |
8 |
12 |
96 |
1.7 |
2.89 |
34.68 |
9 |
8 |
72 |
2.7 |
7.29 |
58.32 |
10 |
6 |
60 |
3.7 |
13.69 |
82.14 |
|
100 |
630 |
|
|
329 |
Теперь с помощью значений второй и третьей колонок получаем: 1 / х = 6 3 0 и Z / = 100.
Следовательно, среднее х = E A / Z / ~ 630/100 = 6.3 единицы.
С помощью этого значения х остающиеся колонки рассчитываются, как
показано. Итак, значение Y,f{x-x) |
равняется 329. |
Таким образом, среднеквадратическое отклонение рассчитывается следую щим образом:
Среднеквадратическое |
\Ы^-^? |
[329 |
^ ^ |
|
отклонение |
||||
•^1 ^ у |
~-\|Т00" |
единицы. |
4 0 |
ГЛАВА 1 |
Обычно считается, что альтернативная формула расчета проще:
Среднеквадратическое отклонение s =J „ г—\^) •
Используя эту формулу, необходимо только рассчитать среднюю арифме тическую, а затем составить дополнительную колонку со значениями Y^fx^, как это показано ниже:
|
|
fx |
fx' |
3 |
4 |
12 |
36 |
4 |
12 |
48 |
192 |
5 |
22 |
110 |
550 |
6 |
20 |
120 |
720 |
7 |
16 |
112 |
784 |
8 |
12 |
96 |
768 |
9 |
8 |
72 |
648 |
10 |
6 |
60 |
600 |
Итого |
100 |
630 |
4298 |
ZA_630
По таблице получаем арифметическую среднюю у /• ~ юо ~ ^"^ единицы
Аналогично, среднеквадратическое отклонение л|~у~7—(•^) -
= J-—т~(6.3) = л/42.98 - 39.69 = л/3.29 = 1.81 единицы, как и при расчете с
помощью первой формулы.
Пример 3
И наконец, рассмотрим таблицу сфуппированной частоты недельной за работной платы:
Недельная заработная |
300400- 500600- 700800- |
||||
плата (ф. ст.): |
|||||
Количество работников: |
2 |
5 |
9 |
12 8 |
4 |
Вычисления средней арифметической и среднеквадратического отклоне ния сведены в следующую таблицу:
|
|
|
|
СВОДНАЯ СТАТИСТИКА |
4 1 |
|
X |
|
f |
fx |
fx^ |
|
|
(срединные |
значения) |
|
|
|
|
|
350 |
2 |
700 |
245 |
000 |
|
|
450 |
5 |
2250 |
1 012 |
500 |
|
|
550 |
9 |
4950 |
2 722 |
500 |
|
|
650 |
12 |
7800 |
5 070 000 |
|
||
750 |
8 |
6000 |
4 500 000 |
|
||
850 |
4 |
3400 |
2 890 000 |
|
||
Итого |
Z / = 4 0 |
Х А = 2 5 100 |
^ А = 16 440 000 |
|
||
Далее получаем арифметическую среднюю: |
|
|
|
|||
_ 2 А |
25100 |
627.5. |
|
|
|
|
' = 1 7 |
= ~ 4 Г = |
|
|
|
|
Аналогично, вычисляем среднеквадратическое отклонение:
Среднеквадратическое отклонение
^||6440000_^g27.5)^ =^4\ 1000 - 393756.25 = V17243.75 = 131.32 ф. ст.
1.9.Интерпретация меры вариаций
Впредыдущем разделе мы рассмотрели ряд показателей вариаций, которые можно использовать при обобщении данных. В частности, эти значения удобны при сравнении наборов данных, что видно из последующих примеров.
Пример 1
Маркетинговая компания «Спиц энд Коль» провела обследование уровня заработной платы в электронной промышленности и строительной отрасли Результаты, приведенные ниже, основаны на произвольной выборке из 1000 работников, занятых в каждой из отраслей.
Статистические данные |
Отрасль |
промышленности |
|
(недельная заработная |
плата) |
|
|
(ф. ст.) |
|
Электроника |
Строительство |
Средняя арифметическая |
500 |
400 |
|
Среднеквадратическое |
отклонение |
80 |
120 |
Значения средней арифметической, приведенные в таблице, показывают, что средняя заработная плата в электронной отрасли выше, чем в строительной. Таким образом, в целом работники электронной отрасли зарабатывают боль ше, чем работники строительной отрасли. Однако в строительной отрасли выше значение среднеквадратического отклонения. Это указывает на то, что в стро-
4 2 |
ГЛАВА 1 |
ительстве вариация значений заработной платы больше, чем в электронике. Соответственно, в строительстве отмечена большая вариация значений зара ботной платы, в то время как в электронике значения заработной платы рас положены более плотной фуппой. Среднеквадратическое отклонение показыва ет величину вариации для определенного набора данных. Следовательно, боль шее значение среднеквадратического отклонения свидетельствует о большей вариации значений. Согласно результатам, приведенным в таблице, значения заработной платы в электронике более близки друг к другу и, в целом, более близки к значению арифметической средней, нежели в строительстве.
Сходное сравнение можно провести на основании различных статистичес ких показателей — например, тех, что сведены в нижеприведенную таблицу при обследовании аналогичного набора данных.
Статистические данные |
Отрасль промышленности |
|
(недельная заработная плата) |
|
|
(ф. ст.) |
Электроника |
Строительство |
Медиана |
470 |
350 |
Межквартильный размах |
140 |
220 |
Значения медианы показывают, что средняя заработная плата в электро нике выше, чем в строительстве. Данные также показывают, что в электронной отрасли половина обследованных работников получают менее 470 ф. ст., а дру гая половина — более 470 ф. ст. Аналогично, в строительной отрасли значение в 350 ф. ст. является центральной точкой раздела обследованных работников на две одинаковые фуппы. Межквартильный размах дает интервал, содержащий «центральные» 50% работников. Для работников строительной отрасли значе ние размаха больше, что свидетельствует о большей вариации значений зара ботной платы в данной отрасли.
Пример 2
Производственное подразделение фармацевтической компании «Хартвудз», базирующееся в Лондоне, выпускает ряд лекарственных препаратов, в том числе «батротомин», предназначенный для снятия симптомов артрита. Использование «кооперации» на «Хартвудз» требует осушествления контроля за деятельностью отдельных производственных коллективов и проведения глубокого анализа его результатов. В настоящее время в производстве «батротомина» задействованы три коллектива (А, Б и В). В таблице приведены результаты анализа дневной выработки вышеуказанных коллективов за прошедшие три месяца.
Дневная выработка |
Производственные коллективы |
||
(тыс. таблеток) |
Коллектив А |
Коллектив Б |
Коллектив В |
Средняя арифметическая |
45 |
48 |
39 |
Среднеквадратическое отклонение |
2.5 |
8.2 |
4.0 |
Прежде всего, сравним значения средней арифметической для трех кол лективов. Из приведенных данных следует, что коллектив Б работает лучше других, коллектив А идет к нему вплотную, а коллектив В дает наихудшие результаты. Конечно, проведение такого рода сравнения подразумевает, что все остальные исходные идентичны. Например, предполагается, что коллективы