- •Курс лекций по дисциплине «Статистика» Статистика как наука
- •Организация государственной статистики в Российской Федерации
- •Организация международной статистики
- •Статистическое наблюдение
- •Способы наблюдения
- •Определение ошибок выборки
- •Сводка и группировка данных статистического наблюдения
- •Требования к оформлению и составлению таблиц
- •Статистические графики
- •Средние величины
- •Виды и форма средних
- •Степенные средние
- •Коэффициент прямолинейной корреляции Пирсона.
- •Нелинейная регрессия
- •Оценка существенности уравнения регрессии
- •Оценка существенности коэффициента корреляции
- •Формула Спирмена для корреляции связанных рангов
Средние величины
Факторы надежности средних величин, делающие их действительно техническими характеристиками:
- чем больше единиц совокупности, по которым рассчитывается среднее, тем оно устойчивее и тем больше обеспечивается взаимопогашение случайных индивидуальных особенностей;
- чем более однородны единицы совокупности, тем надежнее, устойчивее среднее, тем более оно типично.
Чтобы понять сущность средней величины ее нужно рассматривать во взаимосвязи в сравнении с другими средними величинами. Например, средний возраст, среднее образование и средний стаж работы – все эти характеристики взаимосвязаны.
Среднюю величину часто называют показателем центральной тенденции.
Виды и форма средних
Средние бывают двух видов:
- простые
- взвешенные
Пример: Заработная плата за январь у рабочих одного цеха составляет 6500 руб., 4955 руб., 5323 руб.
fi – весовые коэффициенты (веса).
Пример: По каждому из трех рабочих известно следующее:
Рабочий |
Число деталей/раб.час. |
Число часов/мес. |
1 2 3 |
15 11 14 |
140 105 120 |
Тогда среднее число деталей в час:
Неверно:
Степенные средние
К ним относятся все средние, используемые в статистических расчетах. Формула степенной средней:
Вид средней зависит от показателя средней k:
k = 1: - средняя арифметическая
k = 2: - средняя квадратическая
k = 3: - средняя кубическая
k = 0: - средняя геометрическая (k=0)
k = -1: - средняя гармоническая
Свойство мажорантности средней:
xi = 1,2,3
Свойства средней арифметической.
1).
2). - сумма квадратов отклонений от средней арифметической меньше суммы квадратов отклонений от произвольного числа А.
3).
4). - если каждую варианту умножить или разделить на число А, то среднее увеличится в А раз.
5).
6).
Пример: Рассчитать выработку одного рабочего по следующим данным:
Рабочий |
Произведено за неделю |
Часовая выработка |
1 |
200 |
10 |
2 |
240 |
12 |
3 |
390 |
13 |
Средняя величина является реальной величиной поскольку она рассчитывается на основе фактически существующих данных, но вместе с тем она является абстрактной величиной поскольку получена в результате расчетов.
Изучение вариации.
Вариация – различие значений признака у отдельных единиц изучаемой совокупности в один и тот же период или момент времени.
Статистический анализ вариации предполагает выполнение следующих основных этапов:
Построение вариационного ряда.
Графическое изображение вариационного ряда.
Расчет показателей центра распределения и структурных характеристик вариационного ряда.
Расчет показателя размера и интенсивности вариации.
Оценка вариационного ряда на асимметрию и эксцесс.
Построение вариационного ряда это упорядоченное распределение единиц совокупности по возрастающим или убывающим значениям признака и подсчет числа единиц с тем или иным его значением.
Варианты – это значения, которые принимает исследуемый признак.
Частоты – это абсолютная численность отдельных групп с различными значениями признака.
Частости – это удельные веса (доли) отдельных групп, в общей численности совокупности.
; ;
Пример: Имеются данные о заработной плате для сотрудников фирмы. Упорядочив их по возрастанию получим вариационный ряд.
I |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
Фамилия |
О |
К |
С |
А |
Е |
Р |
В |
Ж |
Г |
Б |
З |
Л |
М |
Т |
Зар. Плата (xi) |
105 |
108 |
115 |
115 |
115 |
119 |
121 |
125 |
127 |
128 |
128 |
129 |
131 |
132 |
15 |
16 |
17 |
18 |
19 |
20 |
Ю |
Я |
Н |
Э |
М |
Д |
134 |
135 |
140 |
140 |
143 |
145 |
xi |
105 |
108 |
115 |
119 |
121 |
125 |
127 |
128 |
129 |
131 |
132 |
135 |
140 |
143 |
145 |
ni |
1 |
1 |
3 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
1 |
1 |
2 |
1 |
1 |
Объединив одинаковые значения Xi , получили таблицу, называемую рядом частот.
В вариационном ряду xi получены по сильной шкале. Можно перейти в порядковую шкалу, сопоставив каждому значению ранг. Ранг равен порядковому номеру i значения xi в упорядоченной выборке, если частота ni.данного значения равна 1. Если же частота значения >1, то ранг значения xi равен среднему арифметическому порядковых номеров этого значения в упорядоченной выборке.
xi |
i |
ранг |
105 108 115 119 121 125 127 128 129 131 132 134 135 140 143 145 |
1 2 3,4,5 6 7 8 9 10,11 12 13 14 15 16 17,18 19 20 |
1 2 4 6 7 8 9 10,5 12 13 14 15 16 17,5 19 20 |
Ряд сгруппированных частот.
Такой ряд строят в случае непрерывного признака или для дискретного признака при объеме совокупности n>50.
Весь отрезок [xmin, xmax] разбивается на интервалы число которых определяется по формуле Стерджесса: k=1+3,32lg(n)=1+1,44ln(n).
Длина интервала: .
Середины интервалов:
y 1=xmin
y2=xmin+d
y3=y2+d
…
yk=xmax
Находим частоту каждого интервала ni: т.е. число значений признака, попавших в данный интервал. Причем, если значение xi с четной частотой fi попадает на границу интервала, то половину значений fi/2 относят к левому интервалу, а другую к правому. Если fi нечетное, то к левому относят (fi+1)/2.
Построим ряд сгруппированных частот для нашего примера:
xmin=105; xmax=145; n=20;
k=1+3,32lg(20)=5,3 (k=5)
d=(145-105)/(5-1)=10
Интервал
|
Середина интервала
|
Частота ni
|
Частость mi=ni/n
|
100-110 110-120 120-130 130-140 140-150 |
105 115 125 135 145 |
2 4 6 5 3 |
0,1 0,2 0,3 0,25 0,15 |
Гистограмма частот:
Полигон частот:
Кумулята, огива:
Характеристики вариационного ряда.
1. Показатели центра распределения.
- Среднее значение признака
- Мода (Mo)
Mo – значение признака наиболее часто встречающегося в изучаемой совокупности. В дискретном вариационном ряду модой являются варианты с наибольшей частотой или частностью.
В интервальном вариационном ряду мода рассчитывается по формуле:
(*)
Модальный интервал – это интервал, имеющий наибольшую частоту.
Расчет модального значения для вариационных рядов с неравными интервалами осуществляется по формуле аналогичной (*), только вместо показателей частот или частостей используются показатели абсолютной или относительной плотности распределения, которые обеспечивают сопоставимость неравных интервалов. Показатели плотности распределения находятся как отношения частот (частостей) к величине интервала.
- абсолютная плотность распределения
- относительная плотность распределения
- Медиана (Me, Md)
Варианта расположенная в середине упорядоченного вариационного ряда, делящая его на две равные части, т.о. что половина единиц совокупности имеет значение признака меньше, чем медиана, а половина – больше, чем медиана.
-
xi
5
3
2
1
7
1
2
3
5
7
Me
Если n=2k+1, Me=Xk+1 ; Если n=2k, Me=(Xk+Xk+1)/2
Функция плотности вероятности для нормального закона распределения:
График такой функции называется кривой Гаусса.
Правило «трех сигм»:
Площадь под кривой Гаусса в диапазоне
составляет 68.3%
составляет 95.4%
составляет 99.7%
Начальным моментом k-го порядка называется величина:
Центральным моментом k-го порядка называется величина:
Основным моментом k-го порядка называется величина:
- Асимметрия
µ1=M(X-M(x))
Степень существенности асимметрии и эксцесса можно оценить с помощью соответствующих среднеквадратических ошибок коэффициента асимметрии и эксцесса.
-Эксцесс
; ;
Если - то As существенно.
Если - то Ex существенно.
Для симметричного распределения .
Правосторонняя асимметрия:
Квантили распределения.
Квантиль - это значение, делящее вариационный ряд (ряд сгруппированных частот) на две части с определенными пропорциями в каждой из них.
К квантилям относятся:
- квартили (Q1, Q2, Q3) они делят упорядоченную выборку на 4 равные части.
- децили (D1, D2, …, D9) они делят упорядоченную выборку на 10 равных частей.
- процентили (P1, P2, …, P99) они делят упорядоченную выборку на 100 равных частей.
Пример: 64 студента выполняли тест из 15 вопросов. Оценка равняется количеству правильных ответов. Определим 30 процентиль, т.е. такое значение меньше которого получили оценку 30% испытуемых.
Интервал |
Оценка |
Частота ni |
Накопленная частота |
4,5-5,5 5,5-6,5 6,5-7,5 7,5-8,5 8,5-9,5 9,5-10,5 10,5-11,5 11,5-12,5
|
5 6 7 8 9 10 11 12 |
4 7 13 15 7 9 6 3
|
4 11 24 39 46 55 61 64 |
Формула для нахождения j-ой процентили:
, ;
d – длина интервала.
xн – левая граница интервала, содержащего накопленную частоту k.
n* - частота этого интервала.
∑ni – накопленная к xн частота.
k=(30*65)/100=19,2
В силу того, что 11 человек имеют оценку 6 или меньше, а 24 – 7 или меньше. То частота k=19,2 лежит в интервале [6,5; 7,5] => xн=6,5; n*=13; ∑ni=11, d=1.
P30=6,5 +1(19,2-11)/13=7,13
Следовательно, 30% всех оценок за тест лежит ниже 7,13. Me=P50=D5
Показатели вариации.
Абсолютные показатели вариации:
1). Размах R=Xmax-Xmin (Range)
2).
3). Среднее квадратическое отклонение и дисперсия
Дисперсия:
4). Квартильное отклонение применяется иногда вместо размаха вариации
Относительные показатели:
1). Коэффициент осцилляции
2). Относительное линейное отклонение
3). Коэффициент вариации (наиболее часто применяемый)
4). Коэффициент децильной дифференциации
Правило сложения дисперсий.
Для сгруппированной статистической совокупности возможно вычисление 3-х видов дисперсий: общей, межгрупповой и внутригрупповой.
Общая дисперсия характеризует изменение признака во всей изучаемой совокупности и рассчитывается по формуле:
,
i – индекс суммирования по группам.
j – индекс суммирования по элементам в группе.
Для оценки изменения признака внутри каждой i-ой группы, вычисляют внутригрупповые дисперсии:
Обобщенную характеристику внутригруппового изменения внутригрупповых средних вычисляют:
Межгрупповая дисперсия показывает вариацию групповых средних вокруг средней величины признака в совокупности:
Шкалы измерения.
Выделяют 4-е шкалы, каждая из них связана с определенным свойством чисел. Каждая последующая шкала кроме свойств чисел, присущих предыдущим шкалам, имеет свои собственные.
1). Номинальная (шкала наименований). Частный случай – дихотомическая.
Свойство чисел: равенство и различие.
2). Порядковая (ранговая или ординальная).
Свойство чисел: упорядоченность.
3). Интервальная шкала.
Позволяет определить, на сколько единиц одно значение признака отличается от другого.
4). Шкала отношений.
Позволяет определить, во сколько раз одно значение отличается от другого. Значение 0 свидетельствует об отсутствии признака у объекта.
Первые два типа шкал называют слабыми или неметрическими. Последние – сильные или метрические.
Значения, полученные по сильной шкале, всегда можно преобразовать в одну из слабых шкал.
Статистический анализ связей.
Статистическая связь – это связь, проявляющаяся не в каждом отдельном случае, а в массе случаев, в средних величинах в форме тенденции.
Частный случай статистической связи - это корреляционная связь, при которой некоторому изменению одного признака (количеств.) соответствует определенное изменение средней величины другого признака.
Связь двух признаков (y,x) – называют парной корреляцией. x – факторный признак. y – результативный признак или отклик. Влияние нескольких факторов на результативный признак называется множественной корреляцией.
По направлению связи бывают прямые и обратные. Если при увеличении значений X, значения Y в среднем увеличиваются, то связь называется прямой.
Если при увеличении X, значения отклика Y в среднем уменьшаются, то такая связь называется обратной.
Пример: Зависимость качества работы (Y) от скорости ее выполнения (X).
xi |
x1 |
x2 |
… |
xn |
yi |
y1 |
y2 |
… |
yn |
Регрессионный анализ исследует форму зависимости между X и Y что выражается в подборе соответствующей функции y=f(x).