- •1 . Корреляционный анализ
- •1.1. Построение рядов распределения по факторному и результативному признакам
- •1.2. Построение поля корреляции
- •1.3. Построение корреляционной таблицы
- •1.6. Измерение тесноты связи
- •2. Определение показателей вариации
- •2.1. Вычисление показателей вариации
- •3) Определение показателей вариации
- •2.2. Вычисление дисперсий
- •3. Анализ динамических рядов
- •3.1. Вычисление показателей динамики
- •3.2. Установление наличия тренда
- •3.3. Прогнозирование динамического ряда
- •3.4. Анализ полученных результатов
2. Определение показателей вариации
2.1. Вычисление показателей вариации
По имеющимся данным по группе из 20 студентов заочного отделения необходимо:
1) построить интервальный ряд распределения признака и его график;
2) рассчитать модальное, медианное и среднее значение, установить его типичность с помощью коэффициентов вариации;
3) Определение показателей вариации
Имеются следующие данные о среднем значении пульса (уд/мин): 60; 61; 62; 63; 64; 65; 66; 67; 68; 69; 71; 72; 73; 74; 75; 76; 77; 78; 79; 80
Решение.
1) Для построения интервального ряда из дискретного используется формула Стерджесса (2), с помощью которой определяется оптимальное количество интервалов (n).
В нашей задаче n = 1 + 3,32lg20 = 5,16. Так как число интервалов не может быть дробным, то округлим его до ближайшего целого числа, т.е. до 5.
После определения оптимального количества интервалов определяем размах интервала по формуле:
h = H / n, (17)
где H – размах вариации, определяемый по формуле (18).
H = Хмах –Хmin, (18)
где Xмax и Xmin — максимальное и минимальное значения в совокупности.
В нашей задаче h = (80-60)/5 = 4.
Интервальная группировка данных приведена в первом столбце таблицы 2.1, которая содержит также алгоритм и промежуточные расчеты.
Таблица 2.1
Вспомогательные расчеты для решения задачи
Xi |
fi |
Xi |
|||
60 – 64 |
4 |
62 |
248 |
33,6 |
282,24 |
64 – 68 |
4 |
66 |
264 |
17,6 |
77,44 |
68 – 72 |
3 |
70 |
210 |
1,2 |
0,48 |
72 – 76 |
4 |
74 |
296 |
14,4 |
51,84 |
76 – 80 |
5 |
78 |
390 |
38 |
288,8 |
Итого |
20 |
- |
1408 |
104,8 |
700,8 |
На основе этой группировки строится график распределения среднего значения пульса студентов (рис. 4).
Рис. 4. График распределения среднего значения пульса у студентов
Мода ()– это наиболее часто повторяющееся значение признака. Для интервального ряда с равными интервалами величина моды определяется по формуле (19):
Формула для вычисления:
, (19)
где – нижняя граница модального интервала; – величина модального интервала; – частоты в модальном, предыдущем и следующем за модальным интервалом соответственно.
Модальный интервал определяется по наибольшей частоте.
В нашей задаче чаще всего повторяется (5 раз) интервал 76 – 80. Используя формулу (19), определяем точное значение модального значения пульса у студентов:
Мо=76+4*(5-4)/(5-4+5-0)=80
Медиана – варианта, которая находится в середине вариационного ряда.
Делит ряд на две равные (по числу единиц) части – со значениями признака меньше медианы и со значением признака больше медианы.
Вычисляется медиана по формуле:
(20)
где – нижняя граница медианного интервала;
– медианный интервал;
– половина от общего числа наблюдений;
– сумма наблюдений, накопленная до начала медианного интервала;
fMe – число наблюдений или объем взвешивающего признака в медианном интервале.
В нашей задаче третий интервал (68 – 72) является медианным, так как на него приходится середина ряда распределения среднего значения пульса у студентов. Определяем точное значение медианного значения пульса у студентов:
Ме = 68 + 4*(10-8)/3 = 70,667
Средняя величина – это обобщающий показатель совокупности, характеризующий уровень изучаемого явления или процесса. Средние величины могут быть простыми и взвешенными. Простая средняя рассчитывается при наличии двух и более статистических величин, расположенных в произвольном (несгруппированном) порядке, по общей формуле (21). Взвешенная средняя величина рассчитывается по сгруппированным статистическим величинам с использованием общей формулы (22).
=; (21) =. (22)
При этом обозначено: Xi – значения отдельных статистических величин или середин группировочных интервалов; m - показатель степени, от значения которого зависят виды средних величин. Выбор вида формулы средней величины зависит от содержания осредняемого признака и конкретных данных, по которым ее приходится вычислять. Показатель степени m в общей формуле средней величины оказывает существенное влияние на значение средней величины: по мере увеличения степени возрастает и средняя величина (правило мажорантности средних величин), то есть < < < < . Так, если , то , а если , то .
В нашей задаче, применяя формулу средней арифметической взвешенной и подставляя вместо середины интервалов, определяем среднее количество друзей у студентов: = 1408/20 = 70,4.
Теперь осталось определить типичность или нетипичность найденной средней величины. Это осуществляется с помощью расчета показателей вариации. Чем ближе они к нулю, тем типичнее найденная средняя величина для изучаемой статистической совокупности. При этом критериальным значением коэффициента вариации служит 1/3.
Коэффициенты вариации рассчитываются как отношение среднего отклонения к средней величине. Поскольку среднее отклонение может определяться линейным и квадратическим способами, то соответствующими могут быть и коэффициенты вариации.
Среднее линейное отклонение определяется по формулам (23) и (24):
– простое; (23) –взвешенное. (24)
Определяем взвешенное среднее линейное отклонение:
Среднее квадратическое отклонение определяется как корень квадратный из дисперсии, то есть по формуле (25):
. (25)
Дисперсия определяется по формулам (2 или (27):
– простая; (26) – взвешенная.(27)
По формуле (28) находим коэффициент вариации:
или 8,4%
Следовательно, полученное среднее значение типично для данной совокупности, т.к. <33%