Лекция 7. Вариация
Для каждой единицы изучаемой совокупности интересующий нас признак принимает различные значения, т.е. варьирует.
Вариация – это колебания признака в ряде распределения.
Показатели вариации
1. Размах вариации (R) – разность между максимальным и минимальным значениями совокупности: .
2. Среднее линейное отклонение (d) – средняя арифметическая абсолютная величина отклонений значений признака от его средней величины: ; .
3. Дисперсия () – среднее арифметическое квадратов отклонений значений признака от его средней величины..
Дисперсия − единственный из показателей вариации, не имеющий единицы измерения:
Логическая формула Метод моментов
; ;
; ;
где – средняя квадратов статистических величин; – квадрат их средней величины.
Эти параметры нередко имеют и другие названия. Вычитаемое называют начальным моментом первого порядка, уменьшаемое – начальным моментом второго порядка, а сама дисперсия при этом называется центральным моментом второго порядка.
Для иллюстрации пользования формулами дисперсии рассмотрим простейший пример, приняв абстрактно Х1 = 2, Х2 = 4, Х3 = 6, для которыхсреднее значение, очевидно, равняется = 4. Тогда дисперсия простая по логической формуле будет равна
Д3 = ((2-4)2 + (4-4)2 + (6-4)2)/3 = 8/3 = 2,67
Применив формулу моментов , получим тот же результат
Д3 =(22 + 42 + 6 2 )/3 – 16 = 56/3 – 16 = 2,67
В данном примере быстрота определения дисперсии методом моментов не достаточно ощутима, но она проявляется очень заметно при большом количестве статистических данных.
где – средняя квадратов статистических величин; – квадрат их средней величины.
Эти параметры нередко имеют и другие названия. Вычитаемое называют начальным моментом первого порядка, уменьшаемое – начальным моментом второго порядка, а сама дисперсия при этом называется центральным моментом второго порядка.
Для иллюстрации пользования формулами дисперсии рассмотрим простейший пример, приняв абстрактно Х1 = 2, Х2 = 4, Х3 = 6, для которыхсреднее значение, очевидно, равняется = 4. Тогда дисперсия простая по логической формуле (1.24) будет равна
Д3 = ((2-4)2 + (4-4)2 + (6-4)2)/3 = 8/3 = 2,67
Применив формулу моментов (1.32), получим тот же результат
Д3 =(22 + 42 + 6 2 )/3 – 42 = 56/3 – 16 = 2,67
В данном примере быстрота определения дисперсии методом моментов не достаточно ощутима, но она проявляется очень заметно при большом количестве статистических данных.
4. Среднее квадратическое отклонение () – арифметическое значение корня квадратного из дисперсии: ; .
Отметим, что отношение (для прогноза).
5. Коэффициент осцилляции:
Относительное линейное отклонение
5. Коэффициент вариации (V) – отношение среднего квадратического отклонения к средней арифметической, выраженное в процентах: .
Этот коэффициент показывает долю колебания признака от средней арифметической. Применяется для сравнения вариаций признака в различных совокупностях и для характеристики колебаний различных признаков в одной совокупности. Также он характеризует степень однородности совокупности и качества средних величин.
Если V от 0% до 20%, то совокупность однородная, и среднюю можно использовать смело.
Если V от 20% до 50%, то совокупность средней однородности, и среднюю необходимо использовать осторожно.
Если V более 50%, то совокупность неоднородная, и средней пользоваться нельзя для прогнозирования перспективных показателей признака.
Целесообразно расчёт каждой средней величины дополнять расчётом коэффициента вариации для характеристики степени однородности совокупности и оценки качества средней величины.
Свойства дисперсии
1. Если каждую варианту увеличить или уменьшить в k раз, то дисперсия увеличится или уменьшится в k2 раз.
2. Если каждую варианту увеличить или уменьшить на одну и ту же величину, то дисперсия не изменится.
3. Если все частоты увеличить или уменьшить в несколько раз, то дисперсия не изменится.
4. Дисперсия равна средней арифметической квадратов вариант без квадрата средней арифметической.
Дисперсия альтернативного признака
Если в совокупности исследуется доля единиц, обладающих тем или иным альтернативным признаком, то дисперсия этой доли определяется по формуле: , где .
p – доля единиц совокупности, обладающих данным признаком, ;
m – число единиц совокупности, обладающих данным признаком;
n – число наблюдений.
Пример:выпущена продукция, в объёме которой доля пригодных изделий составляет 0,8, оставшиеся – бракованные изделия. Определить дисперсию альтернативного признака.
= 0,8 ∙ 0,2 = 0,16.
Межгрупповая и внутригрупповая дисперсии
На вариацию признака влияют различные факторы: систематические и случайные. В статистике определяется количественное воздействие случайных факторов при помощи различных видов дисперсий.
Предположим, совокупность S разбита на непересекающиеся группы по возрастанию признака (S1 ,S2 ,…,Sn).
S1()
S() S2()
…………
Sn()
Дисперсия всей совокупности называется общей дисперсией. Она характеризует влияние колебания признака от воздействия всех факторов: случайных и систематических.
Дисперсия каждой группы, на которые разбита совокупность, называется внутригрупповой и рассчитывается по формуле дисперсии: , где
−дисперсия i-ой группы;
−значение ряда.
Среднее арифметическое из внутригрупповых дисперсий рассчитывается по формуле: и называется средней внутригрупповой дисперсией. Она характеризует влияние случайных факторов на величину общей вариации, т.е. всех факторов, за исключением того, который положен в основу группировки.
Межгрупповой дисперсией называется среднее арифметическое квадратов отклонений внутригрупповых средних от общей средней., рассчитывается по формуле. . Она характеризует влияние систематических факторов, положенных в основу группировки, на величину общей вариации.
Правило сложения дисперсий
Если совокупность разбита на непересекающиеся группы S1 ,S2 ,…,Sn, то общая дисперсия равна сумме межгрупповой дисперсии и средней внутригрупповой дисперсии: (четвёртый способ нахождения дисперсии)
Отношение межгрупповой дисперсии к общей, выраженное в процентах, называется коэффициентом детерминации: .
Корень квадратный из него характеризует долю общей вариации, обусловленную влиянием признака, положенного в основу группировки, в общей совокупности всех факторов и называется эмпирическим корреляционным отношением: . (этта)
Пример:имеются данные о производительности труда 10 работников в зависимости от стажа работы. Определить зависимость выработки работника от стажа работы:
этапы работы |
количество деталей в смену |
количество работников |
менее 5 лет |
11, 8, 9, 12, 11, 9 |
6 |
5 лет и выше |
9, 12, 10, 13 |
4 |
(ед.), (ед.),
(деталей);
;
,
,
, ;
, .
Таким образом, производительность труда рабочих зависит от стажа работы на 31%, а от всех остальных, случайных, факторов – на 69%.