Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Стат_лекц_2011.doc
Скачиваний:
1
Добавлен:
15.04.2019
Размер:
1.66 Mб
Скачать

Средние величины

Факторы надежности средних величин, делающие их действительно техническими характеристиками:

- чем больше единиц совокупности, по которым рассчитывается среднее, тем оно устойчивее и тем больше обеспечивается взаимопогашение случайных индивидуальных особенностей;

- чем более однородны единицы совокупности, тем надежнее, устойчивее среднее, тем более оно типично.

Чтобы понять сущность средней величины ее нужно рассматривать во взаимосвязи в сравнении с другими средними величинами. Например, средний возраст, среднее образование и средний стаж работы – все эти характеристики взаимосвязаны.

Среднюю величину часто называют показателем центральной тенденции.

Виды и форма средних

Средние бывают двух видов:

- простые

- взвешенные

Пример: Заработная плата за январь у рабочих одного цеха составляет 6500 руб., 4955 руб., 5323 руб.

fi – весовые коэффициенты (веса).

Пример: По каждому из трех рабочих известно следующее:

Рабочий

Число деталей/раб.час.

Число часов/мес.

1

2

3

15

11

14

140

105

120

Тогда среднее число деталей в час:

Неверно:

Степенные средние

К ним относятся все средние, используемые в статистических расчетах. Формула степенной средней:

Вид средней зависит от показателя средней k:

k = 1: - средняя арифметическая

k = 2: - средняя квадратическая

k = 3: - средняя кубическая

k = 0: - средняя геометрическая (k=0)

k = -1: - средняя гармоническая

Свойство мажорантности средней:

xi = 1,2,3

Свойства средней арифметической.

1).

2). - сумма квадратов отклонений от средней арифметической меньше суммы квадратов отклонений от произвольного числа А.

3).

4). - если каждую варианту умножить или разделить на число А, то среднее увеличится в А раз.

5).

6).

Пример: Рассчитать выработку одного рабочего по следующим данным:

Рабочий

Произведено за неделю

Часовая выработка

1

200

10

2

240

12

3

390

13

Средняя величина является реальной величиной поскольку она рассчитывается на основе фактически существующих данных, но вместе с тем она является абстрактной величиной поскольку получена в результате расчетов.

Изучение вариации.

Вариация – различие значений признака у отдельных единиц изучаемой совокупности в один и тот же период или момент времени.

Статистический анализ вариации предполагает выполнение следующих основных этапов:

  1. Построение вариационного ряда.

  2. Графическое изображение вариационного ряда.

  3. Расчет показателей центра распределения и структурных характеристик вариационного ряда.

  4. Расчет показателя размера и интенсивности вариации.

  5. Оценка вариационного ряда на асимметрию и эксцесс.

Построение вариационного ряда это упорядоченное распределение единиц совокупности по возрастающим или убывающим значениям признака и подсчет числа единиц с тем или иным его значением.

Варианты – это значения, которые принимает исследуемый признак.

Частоты – это абсолютная численность отдельных групп с различными значениями признака.

Частости – это удельные веса (доли) отдельных групп, в общей численности совокупности.

; ;

Пример: Имеются данные о заработной плате для сотрудников фирмы. Упорядочив их по возрастанию получим вариационный ряд.

I

1

2

3

4

5

6

7

8

9

10

11

12

13

14

Фамилия

О

К

С

А

Е

Р

В

Ж

Г

Б

З

Л

М

Т

Зар. Плата (xi)

105

108

115

115

115

119

121

125

127

128

128

129

131

132

15

16

17

18

19

20

Ю

Я

Н

Э

М

Д

134

135

140

140

143

145

xi

105

108

115

119

121

125

127

128

129

131

132

135

140

143

145

ni

1

1

3

1

1

1

1

2

1

1

1

1

2

1

1

Объединив одинаковые значения Xi , получили таблицу, называемую рядом частот.

В вариационном ряду xi получены по сильной шкале. Можно перейти в порядковую шкалу, сопоставив каждому значению ранг. Ранг равен порядковому номеру i значения xi в упорядоченной выборке, если частота ni.данного значения равна 1. Если же частота значения >1, то ранг значения xi равен среднему арифметическому порядковых номеров этого значения в упорядоченной выборке.

xi

i

ранг

105

108

115

119

121

125

127

128

129

131

132

134

135

140

143

145

1

2

3,4,5

6

7

8

9

10,11

12

13

14

15

16

17,18

19

20

1

2

4

6

7

8

9

10,5

12

13

14

15

16

17,5

19

20

Ряд сгруппированных частот.

Такой ряд строят в случае непрерывного признака или для дискретного признака при объеме совокупности n>50.

Весь отрезок [xmin, xmax] разбивается на интервалы число которых определяется по формуле Стерджесса: k=1+3,32lg(n)=1+1,44ln(n).

Длина интервала: .

Середины интервалов:

y 1=xmin

y2=xmin+d

y3=y2+d

yk=xmax

Находим частоту каждого интервала ni: т.е. число значений признака, попавших в данный интервал. Причем, если значение xi с четной частотой fi попадает на границу интервала, то половину значений fi/2 относят к левому интервалу, а другую к правому. Если fi нечетное, то к левому относят (fi+1)/2.

Построим ряд сгруппированных частот для нашего примера:

xmin=105; xmax=145; n=20;

k=1+3,32lg(20)=5,3 (k=5)

d=(145-105)/(5-1)=10

Интервал

Середина интервала

Частота ni

Частость mi=ni/n

100-110

110-120

120-130

130-140

140-150

105

115

125

135

145

2

4

6

5

3

0,1

0,2

0,3

0,25

0,15

Гистограмма частот:

Полигон частот:

Кумулята, огива:

Характеристики вариационного ряда.

1. Показатели центра распределения.

- Среднее значение признака

- Мода (Mo)

Mo – значение признака наиболее часто встречающегося в изучаемой совокупности. В дискретном вариационном ряду модой являются варианты с наибольшей частотой или частностью.

В интервальном вариационном ряду мода рассчитывается по формуле:

(*)

Модальный интервал – это интервал, имеющий наибольшую частоту.

Расчет модального значения для вариационных рядов с неравными интервалами осуществляется по формуле аналогичной (*), только вместо показателей частот или частостей используются показатели абсолютной или относительной плотности распределения, которые обеспечивают сопоставимость неравных интервалов. Показатели плотности распределения находятся как отношения частот (частостей) к величине интервала.

- абсолютная плотность распределения

- относительная плотность распределения

- Медиана (Me, Md)

Варианта расположенная в середине упорядоченного вариационного ряда, делящая его на две равные части, т.о. что половина единиц совокупности имеет значение признака меньше, чем медиана, а половина – больше, чем медиана.

xi

5

3

2

1

7

1

2

3

5

7

Me

Если n=2k+1, Me=Xk+1 ; Если n=2k, Me=(Xk+Xk+1)/2

Функция плотности вероятности для нормального закона распределения:

График такой функции называется кривой Гаусса.

Правило «трех сигм»:

Площадь под кривой Гаусса в диапазоне

составляет 68.3%

составляет 95.4%

составляет 99.7%

Начальным моментом k-го порядка называется величина:

Центральным моментом k-го порядка называется величина:

Основным моментом k-го порядка называется величина:

- Асимметрия

µ1=M(X-M(x))

Степень существенности асимметрии и эксцесса можно оценить с помощью соответствующих среднеквадратических ошибок коэффициента асимметрии и эксцесса.

-Эксцесс

; ;

Если - то As существенно.

Если - то Ex существенно.

Для симметричного распределения .

Правосторонняя асимметрия:

Квантили распределения.

Квантиль - это значение, делящее вариационный ряд (ряд сгруппированных частот) на две части с определенными пропорциями в каждой из них.

К квантилям относятся:

- квартили (Q1, Q2, Q3) они делят упорядоченную выборку на 4 равные части.

- децили (D1, D2, …, D9) они делят упорядоченную выборку на 10 равных частей.

- процентили (P1, P2, …, P99) они делят упорядоченную выборку на 100 равных частей.

Пример: 64 студента выполняли тест из 15 вопросов. Оценка равняется количеству правильных ответов. Определим 30 процентиль, т.е. такое значение меньше которого получили оценку 30% испытуемых.

Интервал

Оценка

Частота ni

Накопленная частота

4,5-5,5

5,5-6,5

6,5-7,5

7,5-8,5

8,5-9,5

9,5-10,5

10,5-11,5

11,5-12,5

5

6

7

8

9

10

11

12

4

7

13

15

7

9

6

3

4

11

24

39

46

55

61

64

Формула для нахождения j-ой процентили:

, ;

d – длина интервала.

xн – левая граница интервала, содержащего накопленную частоту k.

n* - частота этого интервала.

∑ni – накопленная к xн частота.

k=(30*65)/100=19,2

В силу того, что 11 человек имеют оценку 6 или меньше, а 24 – 7 или меньше. То частота k=19,2 лежит в интервале [6,5; 7,5] => xн=6,5; n*=13; ∑ni=11, d=1.

P30=6,5 +1(19,2-11)/13=7,13

Следовательно, 30% всех оценок за тест лежит ниже 7,13. Me=P50=D5

Показатели вариации.

Абсолютные показатели вариации:

1). Размах R=Xmax-Xmin (Range)

2).

3). Среднее квадратическое отклонение и дисперсия

Дисперсия:

4). Квартильное отклонение применяется иногда вместо размаха вариации

Относительные показатели:

1). Коэффициент осцилляции

2). Относительное линейное отклонение

3). Коэффициент вариации (наиболее часто применяемый)

4). Коэффициент децильной дифференциации

Правило сложения дисперсий.

Для сгруппированной статистической совокупности возможно вычисление 3-х видов дисперсий: общей, межгрупповой и внутригрупповой.

Общая дисперсия характеризует изменение признака во всей изучаемой совокупности и рассчитывается по формуле:

,

i – индекс суммирования по группам.

j – индекс суммирования по элементам в группе.

Для оценки изменения признака внутри каждой i-ой группы, вычисляют внутригрупповые дисперсии:

Обобщенную характеристику внутригруппового изменения внутригрупповых средних вычисляют:

Межгрупповая дисперсия показывает вариацию групповых средних вокруг средней величины признака в совокупности:

Шкалы измерения.

Выделяют 4-е шкалы, каждая из них связана с определенным свойством чисел. Каждая последующая шкала кроме свойств чисел, присущих предыдущим шкалам, имеет свои собственные.

1). Номинальная (шкала наименований). Частный случай – дихотомическая.

Свойство чисел: равенство и различие.

2). Порядковая (ранговая или ординальная).

Свойство чисел: упорядоченность.

3). Интервальная шкала.

Позволяет определить, на сколько единиц одно значение признака отличается от другого.

4). Шкала отношений.

Позволяет определить, во сколько раз одно значение отличается от другого. Значение 0 свидетельствует об отсутствии признака у объекта.

Первые два типа шкал называют слабыми или неметрическими. Последние – сильные или метрические.

Значения, полученные по сильной шкале, всегда можно преобразовать в одну из слабых шкал.

Статистический анализ связей.

Статистическая связь – это связь, проявляющаяся не в каждом отдельном случае, а в массе случаев, в средних величинах в форме тенденции.

Частный случай статистической связи - это корреляционная связь, при которой некоторому изменению одного признака (количеств.) соответствует определенное изменение средней величины другого признака.

Связь двух признаков (y,x) – называют парной корреляцией. x – факторный признак. y – результативный признак или отклик. Влияние нескольких факторов на результативный признак называется множественной корреляцией.

По направлению связи бывают прямые и обратные. Если при увеличении значений X, значения Y в среднем увеличиваются, то связь называется прямой.

Если при увеличении X, значения отклика Y в среднем уменьшаются, то такая связь называется обратной.

Пример: Зависимость качества работы (Y) от скорости ее выполнения (X).

xi

x1

x2

xn

yi

y1

y2

yn

Регрессионный анализ исследует форму зависимости между X и Y что выражается в подборе соответствующей функции y=f(x).