- •Глава 2
- •Определение статистики
- •Сбор статистических данных
- •Выборочный метод
- •Неправильные и неполные представления
- •Графическое изображение распределения частот
- •Числовые характеристики центральной тенденции
- •Числовые характеристики рассеяния
- •Кривая нормального распределения
- •Выравнивание анормальных распределении
Графическое изображение распределения частот
Приведенные данные выборочного наблюдения представляются в виде таблиц и с помощью приближенных графиков на основе произведенной группировки распределения частот. Визуальное представление о статистическом распределении частот можно сделать более наглядным при помощи нескольких способов. На рис. 2-7 приведены некоторые из этих способов графического изображения распределения частот и соответствующие им названия.
Так, на рис. 2-7, с, где по оси ординат откладываются частоты появления наблюденных значений признака, расположенных ниже верхней границы каждого интервала наблюдения, плотность распределения принимает вид огивы, или, как ее часто называют, кривой «меньше, чем». Нормальное распределение, которое более подробно рассматривается ниже, принимает на графической сетке огивы форму Б-образной кривой. На рис. 2-7,с? показано распределение, полученное в результате замены частотных характеристик наблюденных значений признака ниже верхней границы каждого интервала наблюдения соответствующими вероятностными оценками. Такие оценки могут быть получены с помощью следующей формулы:
Формула нормального распределения (1/\^2по') е~ <-х-х">2/2а'2 на шкале суммарных вероятностей будет представлять прямую линию. Распределения частот, которые, как это имеет место в нашем примере, являются нормальными, на графической шкале суммарных вероятностей будут приближаться к прямой линии.
При построении графиков или составлении таблиц распределения частот необходимо строго придерживаться границ интервалов. Заметим, что в данном примере границами интервалов соответственно являются 65—69, 60— 64, 55—59 и т. д. При этом границы смежных интервалов не должны совпадать друг с другом. Отметим также, что диапазон интервала, который на первый взгляд'представляется равным 4 (69—65 = 4), на самом деле равен 5, так как интервал, обозначенный границами 69—65, включает все наблюдения со значениями от 69,5 до 64,5. Соблюдение размеров соответствующего интервала достигается полным устранением совпадения его границ с границами
2-7. Графическое изображение распределения частот по данным, приведенным в рассматриваемом примере.
смежных интервалов и последовательным вычитанием величины интервала из нижнего предела предыдущего интервала. Чтобы ясно представить себе, как это делается, вполне достаточно обратиться к рис. 2-6.
Числовые характеристики центральной тенденции
Одной из основных характеристик распределения, как видно из приведенного примера, является тенденция наблюденных значений признака группироваться вокруг центра этого распределения. Эта характеристика называется центральной тенденцией. Центральная тенденция обычно выражается тремя способами: а) средней величиной, именуемой средней арифметической, б) средней величиной, именуемой медианой, и в) наиболее часто повторяющейся величиной, именуемой модой.
Средняя арифметическая X, несомненно, чаще всего используется в качестве числовой характеристики центральной тенденции. Эта характеристика равномерно учитывает значение отклонений и, кроме того, удобна для выполнения различных дополнительных математических операций. Она представляет собой своего рода «центр тяжести» распределения частот; это означает, что алгебраическая сумма всех отклонений от этой средней равна нулю. В качестве аналогии рассмотрим 11-футовую доску с точкой опоры,
отстоящей на 5 футов от ее начала, находящуюся под воздействием однофунтовых нагрузок, приложенных соответственно в точках, отстоящих на 2,3 и 4 фута от начала доски (собственный вес доски в расчет не принимается). Вопрос заключается в том, в какой точке должен быть приложен груз в 1 фунт для того, чтобы доска находилась в состоянии равновесия? Для достижения такого равновесия этот груз в 1 фунт должен быть приложен в точке 11. Сумма отклонений от центра опоры в этом случае будет равна
(5-4) + (5-3) + (5-2) + (5-11) = ( + 6) + (-6) = 0.
Для определения средней арифметической могут быть применены две формулы. Если имеется вычислительная машина, то используется формула, применяемая для необработанных данных. Если же в распоряжении имеются только обычный карандаш и бумага, то в этом случае применяется формула, основывающаяся на данных о распределении частот. Для полноты изложения здесь приводятся обе формулы. Однако все вычисления будут производиться с помощью формулы, применяемой к данным о распределении частот. Формула определения средней арифметической на основе необработанных данных
где — средняя арифметическая; X — данные наблюдений; п — число наблюдений; — символ, обозначающий операцию суммирования. Формула определения средней арифметической на основе данных о распределении частот
>
где — середина предполагаемого среднего интервала; / — частота наблюдений в данном интервале; а1 — отклонение от среднего интервала; I — величина интервала.
Рис. 2-8. Сгруппированное распределение частот по данным рассматрпва емого примера, на основе которого производится исчисление X и а.
На рис. 2-8 приведены данные из рассматриваемого примера о распределении частот и соответствующие им данные в столбцах , а также суммарные итоги. Итог И/й необходим для определения средней арифметической, а столбец значений /(с?)2 и итоговые данные по этому столбцу — для
выполнения последующей операции. Последовательная процедура заполнения столбцов с1, /(сО2 и подведение суммарных итогов осуществляются следующим образом:
Приближенно определяется интервал, внутри которого, вероятнее всего, находится среднее арифметическое значение. (Желательно, чтобы предполагаемый интервал был небольшим по своему размеру и чтобы вычисления производились с положительными величинами.) Точка нуль в столбце значений с1 помещается напротив предполагаемого интервала. Выше нулевой точки, включая верхний интервал, располагаются положительные значения в, (+1, +2, +3 и т. д.); ниже, включая нижний интервал;— его отрицательные значения (—1, —2, —3 и т. д.),
Для каждого интервала исчисляется произведение соответствующих /ийи результаты проставляются в графу {о1. Затем подсчитывается алгебраическая сумма этих результатов.
3. Для каждого интервала определяется произведение соответствующих, и ^ и результаты проставляются в графе /(й)2. В конце столбца дается
алгебраическая сумма этих результатов.
— / 55 \
В нашем примере среднее арифметическое составит Х = 32 + 5 I щ 1=34,75.
Медиана представляет собой значение признака, которое делит пополам распределение всех наблюденных значений, т. е. является той точкой, выше и ниже которой лежит равное число наблюдений. В примере, в котором проводилась аналогия с центром тяжести, медиана расположена в точке 3,5; иными словами, медианой здесь будет точка, по обе стороны от которой действуют равнозначные однофунтовые нагрузки. В отличие от средней арифметической, численное значение медианы не зависит от экстремальных значений наблюдаемого признака. При абсолютно симметричном распределении численные значения медианы и средней арифметической совпадают. Формула определения медианы на основе данных, расположенных в последовательном порядке
Медиана -му наблюдению.
Формула определения медианы на основе распределения частот
где Ь — нижняя граница интервала группировки, в котором содержится значение медианы; I — величина интервала;
7 — число наблюдений, не достигающих значения Ь\ /т — частота наблюдений для интервала группировки, содержащего значение медианы.
В нашем примере медиана будет равна
Модой называется значение признака, которому соответствует наибольшее число наблюдений, или значение признака в наиболее плотном интервале (модальном интервале).
Формула определения моды на основе распределения частот
где Ь — нижняя граница модального интервала; I — величина интервала;
/! — частота наблюдений в интервале, расположенном классом выше модального интервала; — частота наблюдений в интервале, расположенном классом ниже модального интервала.
В нашем примере мода будет равна
Помимо указанных числовых характеристик центральной тенденции, при контроле качества продукции широко используется числовая характеристика, называемая средней взвешенной. Исчисление средней взвешенной производится на основании данных о средних значениях признака, исчисленных для каждой отдельной выборки и о численности каждой из этих выборок:
-
п
X
100
34
50
37
200
35
Для определения средней оценки на основе этих укрупненных данных следует применить формулу средней взвешенной
Применяя эту формулу к данным рассматриваемого примера, получаем