Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

.pdf
Скачиваний:
134
Добавлен:
14.03.2016
Размер:
5.88 Mб
Скачать

Выборочное среднее значение наблюдаемой переменной определяется по формуле (1):

 

n

 

 

 

xi

 

1

x

i 1

,

n

 

 

 

где n – объем выборки (истинное число наблюдений переменной x).

Медиана делит ряд упорядоченных значений пополам с равным числом этих значений как выше, так и ниже еѐ (левее и правее медианы на числовой оси). Если упорядочить данные по величине, начиная с самой маленькой величины и заканчивая самой большой, то медиана также будет характеристикой усреднения в упорядоченном наборе данных [2].

Мода – это значение, которое встречается наиболее часто в наборе данных. Некоторые наборы данных не имеют моды, потому что каждое значение встречается только один раз. Иногда бывает более одной моды; это происходит тогда, когда два значения или больше встречаются одинаковое число раз и встречаемость каждого из этих значений больше, чем любого другого значения [2].

Выборочная дисперсия характеризует изменчивость переменной и вычисляется по формуле (2):

n

 

 

(xi x )2

 

2

Sx2 i 1

,

n 1

где x – выборочное среднее значение.

Дисперсия изменяется от 0 до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, иными словами значения переменной постоянны.

Выборочное стандартное отклонение S – оценка стандартного отклонения,

которая определяется следующим образом (3):

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

(xi x )2

 

3

 

 

 

 

 

2

 

 

 

i 1

 

Sx

 

 

или Sx

 

Sx

 

.

n 1

 

 

 

 

 

 

 

 

 

 

 

Стандартная ошибка среднего значения позволяет оценить точность сред-

него. Она вычисляется по следующей формуле (4):

 

 

 

 

 

 

 

Sx

Sx

 

,

4

 

 

 

 

 

 

n

 

 

 

 

 

 

где Sx – выборочное стандартное отклонение; n – объем выборки.

Большая стандартная ошибка указывает на то, что оценка среднего не точна. При этом необходимо отметить, что расчет ошибок в малой выборке мало отличается от аналогичных вычислений в большой выборке. Различие заключается в том, что при малой выборке вероятность утверждения несколько меньше, чем при большой выборке. Во многих случаях расхождения между найденными пределами

21

могут достигать рачительных размеров, что вряд ли удовлетворяет исследователей. Поэтому малую выборку следует применять в статистическом исследовании явлений с большой осторожностью, при соответствующем теоретическом и практическом обосновании [3].

Стандартная ошибка среднего значения выборки дает некоторое представление об ошибке репрезентативности, то есть об ошибке, с которой выборочная средняя представляет действительное значение генеральной средней. Именно она показывает, какова будет ошибка в среднем, если из одной и той же генеральной совокупности сделать много выборок одинакового объема. Однако в каждой конкретной выборке ошибка может существенно отличаться от стандартной ошибки, то есть нет гарантии, что ошибка, которая действительно была допущена в конкретном выборочном исследовании, не превышает средней ошибки.

Поэтому гораздо полезнее было бы знать те границы, в которых «практически наверняка» находится действительная ошибка, допущенная в данной конкретной выборке. Эти границы называют предельной ошибкой выборки х. Предельная ошибка выборки показывает тот предел, которого практически наверняка не превосходит действительная ошибка. Иначе говоря, предельная ошибка ∆х показывает действительно допущенную ошибку с избытком, с превышением (возможно, очень значительным) и тем самым гарантирует, что действительная ошибка не превосходит ∆х.

Можно сказать, что ошибкой измерения будет разность между выборочным средним x и математическим ожиданием μ (истинным средние значением или средним в генеральной совокупности). Различие между ними ∆х = |μ – x | служит ошибкой измерения истинного среднего. Величина такого интервала ∆х вычисляется по формуле x ta Sx , где ta – квантиль распределения Стьюдента. Таким об-

разом, для нахождения предельной ошибки измерения при заданном уровне значимости a нужно стандартную ошибку умножить на квантиль распределения Стьюдента, который для уровня значимости α и числа степеней свободы v = n – 1 может быть найден как по таблице (приложение Е), так и с помощью вероятност-

ного калькулятора пакета STATISTICA 10 [3].

 

Формулу 100(1 – α)-процентного доверительного

интервала для среднего

можно записать следующим образом (5):

5

 

a x

 

ta Sx

 

 

или (6)

 

a x ta Sx ,

(6)

где tα критическое значение t для уровня значимости α и числа степеней свободы v = n – 1 и определяемое по таблице t-критерия Стьюдента (приложение Е).

Доверительный интервал для среднего имеет следующее значение: приводя

P-процентный доверительный интервал среднего, мы утверждаем, что вероятность того, что истинное среднее находится в этом интервале, равна P . Иными словами, если получить все возможные выборки из некоторой совокупности и для

22

каждой рассчитать P-процентный доверительный интервал, то доля интервалов, содержащих среднее по совокупности (истинное среднее), составит P [4].

В медицине и биологии обычно используют достаточно высокую доверительную вероятность: 95%, 99% и 99,9% [3].

Например, результат оценки истинного значения случайной величины «вес человека» по выборочным данным записывается следующим образом:

а = 72,6 ± 1,2 (кг) с вероятностью 95%.

Выборочный коэффициент асимметрии является мерой несимметричности распределения и определяется следующим образом (7):

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

(xi x )3

 

g1

 

 

 

7

 

n i 1

 

 

3 .

 

 

 

 

 

 

 

 

 

 

 

 

1 n

 

 

 

 

 

 

 

 

2

2

 

 

 

 

 

(xi

x )

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

Для симметричного распределения этот коэффициент равен 0. В случае, если асимметрия значительно отличается от 0, распределение является несимметричным [1].

Выборочный коэффициент эксцесса является характеристикой формы распределения, а именно – мерой остроты пика, и вычисляется по следующей форму-

ле (8):

 

 

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

 

(xi x )4

 

 

 

b

 

 

 

 

 

2 3.

8

2

 

n i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 n

 

2

 

 

 

 

 

 

 

 

 

 

(xi

x )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

Как правило, распределения с более острым пиком, чем у нормального имеют положительный эксцесс; распределения, пик которых менее острый, чем пик нормального распределения, имеют отрицательный эксцесс [1].

1.5 Нормальное распределение случайной величины

Распределение случайной величины является нормальным, если вид кривой распределения описывается следующей формулой (9):

 

 

1

 

 

( x μ)2

 

 

f (x)

 

 

e

 

2

.

(9)

 

 

 

 

 

2πσ

 

 

Данную функцию называют функцией плотности вероятности Гаусса. Основные еѐ параметры – математическое ожидание μ и стандартное отклонение σ. График плотности нормального распределения представляет колокол (рисунок 1.16), симметричный относительно центра распределения [3].

23

Рисунок 1.16 – График плотности нормального распределения (математическое ожидание μ = 0 и стандартное отклонение σ = 1)

Нормальное распределение имеет два признака [5]:

1)чем дальше от центра, тем ниже опускаются ветви графика, что свидетельствует о снижении вероятности появления случайной величины при сильном отклонении ее от центрального значения;

2)график симметричен относительно центра, что свидетельствует о равных вероятностях появления значений случайной величины как слева от центра, так и справа от него.

График плотности нормального распределения сдвигается по оси ординат при изменении среднего μ (при возрастании среднего график плотности сдвигается вправо, при убывании среднего – влево).

Пик плотности нормального распределения находится в точке с ординатой, равной среднему значению. Плотность полученного распределения симметрична относительно этого значения [1].

Cтандартное отклонение σ определяет ширину колокола на графике. Чем больше стандартное отклонение, тем шире колокол. Чем меньше стандартное отклонение, тем уже колокол [1].

График плотности нормального распределения можно построить в пакете STATISTICA 10 в вероятностном калькуляторе. Для этого на вкладке Statistics

(Анализ) в группе Base (Базовая статистика) выберем Basic Statistics (Основ-

24

ные статистики и таблицы). На экране появится окно Basic Statistics and Tables

(Основные статистики и таблицы) (рисунок 1.17), в котором необходимо вы-

брать пункт Probability calculator (Вероятностный калькулятор) и нажать ОК.

В окне Probability Distribution Calculator (Вероятностный калькулятор распределений) (рисунок 1.17) можно выбрать многие стандартные распределения: нормальное, логнормальное, распределение Стьюдента, Бета, Коши, Хиквадрат и так далее. Выберем нормальное распределение Z (Normal). В окне справа появятся поля, в которых можно задать параметры нормального распределения: среднее (mean) и стандартное отклонение (st. dev.). При выборе опции Create Graph (График) и нажатии на кнопку Compute (Вычислить) происходит построение графика нормального распределения (рисунок 1.16).

Рисунок 1.17 – Окно Basic Statistics and Tables

(Основные статистики и таблицы)

Правила одной, двух и трех сигм. При нормальном распределении 68% всех значений случайной величины лежит в пределах стандартного отклонения σ. Если отклонение равно двум стандартным отклонениям 2σ, то в пределах такого интервала лежит более 95% значений случайной величины, в хвосты попадает менее 5% значений. При трехсигмовом интервале 3σ в нем заключено 99,7% всех значений, а в хвосты попадает менее 1% значений переменной [3].

Например, в практике спортивной медицины обычно доверительный интервал отдельных значений определяют как выборочное среднее плюс-минус два стандартных отклонения, что очень важно при выяснении того, попадает ли анализ какого-либо спортсмена в «норму» или нет. Таким образом, стандартное от-

25

клонение σ – является одной из наиболее обоснованных и эффективных описательных статистик [3].

1.6 Проверка характера распределения переменной на нормальность

Согласно ГОСТ Р ИСО 5479-2002 «Статистические методы. Проверка отклонения распределения вероятностей от нормального распределения» критерий на отклонение от нормального распределения имеет нулевую гипотезу, состоящую в том, что выборка содержит n значений независимых наблюдений, подчиняющихся одному и тому же нормальному распределению. Он заключается в вычислении функции Т от этих значении, называемой статистикой критерия. Нулевую гипотезу о нормальности распределения принимают или отклоняют в зависимо-

сти от того, лежит ли статистика Т в области ожидаемых значений, соответствующих нормальному распределению.

Критическая область критерия – это совокупность значений Т, ведущих к отклонению нулевой гипотезы. Уровень значимости критерия это вероятность Р получения значения Т в критической области, когда нулевая гипотеза верна. Этот уровень дает вероятность ошибочного отклонения нулевой гипотезы (вероятность ошибки первого рода).

Граница критической области (или в случае двустороннего критерия – границы критической области) – это критическое значение статистики критерия.

Мощность критерия – это вероятность отклонения нулевой гипотезы, когда она неверна. Высокая мощность соответствует низкой вероятности ошибочного применения нулевой гипотезы (вероятности ошибки второго рода).

Существуют два вида критериев на отклонение от нормального распределения: направленный критерий – когда форму этого отклонения устанавливают в альтернативной гипотезе; многосторонний критерий – когда форму отклонения в ней не устанавливают [5].

В направленном критерии критическую область определяют так, чтобы мощность критерия достигала максимального значения. В многостороннем критерии необходимо отделить критическую область так, чтобы она состояла из значений статистики критерия, лежащих далеко от ожидаемого значения [5].

Многосторонние критерии применяют и том случае, если нет априорной информации о типе отклонения от нормального распределения.

Существуют следующие критерии проверки гипотезы нормальности распределения, имеющие ограничения по объему выборки:

критерий Шапиро–Уилка для малых выборок c n < 50;

критерий Хи-квадрат Пирсона для выборок с n > 30;

критерий Колмогорова–Смирнова для выборок c n > 50.

Критерий Шапиро–Уилка используют, когда на основе исходных данных можно выбрать альтернативную гипотезу следующего вида: примерно симмет-

26

ричное распределение с убывающей кривизной или ассиметричное распределе-

ние [5].

Этот критерий применим при 8 < n < 50. Малые выборки с n < 8 при обнаружении отклонений от нормального распределения не дают достоверных результатов.

Критерий основан на регрессионном анализе порядковых статистик по их ожидаемым значениям. Это критерий типа дисперсионного анализа для полной выборки. Статистика критерия W – отношение квадрата суммы линейной разности выборочных порядковых статистик к обычной оценке дисперсии [5].

При уровне значимости α = р критическая область критерия образована значениями, меньшими чем квантиль для р = α. В приложении Б представлена таблица, содержащая квантили статистики критерия W для р = α = 0,01 и р = α = 0,05.

Если табличное значение Wтабл меньше расчетного значения Wрасч, то нулевая гипотеза о нормальном распределении не отклоняется при уровне значимости α.

Пример. Найти, соответствуют ли полученные эмпирические данные моторной плотности учебных занятий (таблица 1.1) нормальному закону распределения [6]. Поскольку выборка имеет малый объем (n = 10), в этой ситуации может помочь только критерий Шапиро–Уилка.

Таблица 1.1 – Эмпирические данные моторной плотности учебных занятий

1

2

3

4

5

6

7

8

9

10

%

60

75

40

55

68

70

80

40

30

50

Алгоритм решения [6]:

1Выдвигаем статистические гипотезы:

– нулевую – об отсутствии отличий;

– альтернативную – о наличии отличий.

2Создадим новую таблицу вкладка New (Главная) группа File (Файл)

команда New (Создать) Spreadsheed (Таблица). Введем данные в столбец, соответствующий переменной Var 1.

3Запускаем модуль Descriptive statistics (Описательные статистики):

вкладка Statistics (Анализ) – группа Base (Базовая статистика) – окно Basic Statistics (Основные статистики и таблицы) Descriptive statistics (Описательные статистики). В окне этого модуля во вкладке Normality (Нормальность) устано-

вим флажок в опции Shapiro-Wilk's W test (критерий Шапиро–Уилка) и на-

жмем на кнопку Histograms (Гистограммы) (рисунок 1.18).

4Получаем гистограмму (рисунок 1.19), в еѐ окне значение статистики кри-

терия W = 0,967 при р < 0,783. Расчетное значение критерия Wрасч больше табличного значения Wтабл = 0,842 для n = 10 и р = α = 0,05. Следовательно нулевая гипотеза о нормальном распределении не отклоняется при уровне значимости α = 0,05. Можно считать, что эмпирическое распределение переменной не отличается от нормального.

27

Рисунок 1.18 – Вкладка Normality (Нормальность)

окна Descriptive statistics (Описательные статистики)

Рисунок 1.19 – Гистограмма для переменной Var 1 28

Критерий Колмогорова–Смирнова является одновыборочным критерием проверки нормальности и основывается на максимуме разности между кумулятивным распределением выборки Fn(x) и предполагаемым кумулятивным распределением F(x) (10):

D=max F n (x)−F (x) .

(10)

x

 

Полученное значение Dрасч сравнивают с критическим Dтабл, взятым из таб-

лицы при заданном уровне значимости α. Если D-статистика

Колмогорова–

Смирнова значима, то нулевая гипотеза о том, что соответствующее распределение является нормальным должна быть отвергнута. Таким образом, если таблич-

ное значение Dтабл меньше расчетного значения Dрасч, то нулевая гипотеза о нормальном распределении отвергается при уровне значимости α.

В приложении В представлена таблица, содержащая критические значения для наибольшего отклонения эмпирического распределения от теоретического по критерию Колмогорова–Смирнова для уровней значимости α = 0,01 и α = 0,05.

Пример. В плане комплексной оценки уровня работоспособности необходимо проверить нормальность распределения показателей уровня распределения внимания по тесту Шульте–Платонова у студентов до начала работы (таблица 1.2) [6]. Поскольку выборка имеет достаточно большой объем (n = 90), то в этой ситуации необходимо выбрать критерий Колмогорова–Смирнова.

Алгоритм решения [6]:

1Выдвигаем статистические гипотезы:

– нулевую – об отсутствии отличий;

– альтернативную – о наличии отличий.

2Создадим новую таблицу вкладка New (Главная) группа File (Файл) команда New (Создать) – вкладка Spreadsheed (Таблица). Введем данные в столбец, соответствующий переменной Var 1 (таблица 1.2).

3Запускаем модуль Descriptive statistics (Описательные статистики):

вкладка Statistics (Анализ) – группа Base (Базовая статистика) – окно Basic Statistics (Основные статистики и таблицы) Descriptive statistics (Описательные статистики). В окне этого модуля во вкладке Normality (Нормальность) устано-

вим флажок в опции Kolrnogorov-Srnirnov & Lilliefors test for normality (крите-

рий Колмогорова–Смирнова и Лиллиефорса) и нажмем на кнопку Histograms (Гистограммы) (рисунок 1.18).

4Получаем гистограмму (рисунок 1.20), в еѐ окне значение статистики кри-

терия D = 0,133 при р < 0,10. Расчетное значение критерия Dрасч меньше табличного значения Dтабл = 0,141 для n = 90 и α = 0,05. Следовательно нулевая гипотеза о нормальном распределении не отклоняется при уровне значимости α = 0,05. Можно считать, что эмпирическое распределение не отличается от нормального.

29

Таблица 1.2 – Показатели уровня распределения внимания по тесту Шульте– Платонова у студентов до начала работы

 

Сек.

Сек.

Сек.

Сек.

Сек.

 

1

46

19

55

37

57

55

56

73

39

 

2

59

20

62

38

58

56

66

74

53

 

3

49

21

58

39

58

57

54

75

63

 

4

49

22

45

40

48

58

55

76

54

 

5

50

23

45

41

55

59

51

77

64

 

6

50

24

55

42

59

60

53

78

54

 

7

51

25

55

43

59

61

45

79

44

 

8

51

26

45

44

56

62

50

80

45

 

9

33

27

56

45

49

63

53

81

55

 

10

44

28

56

46

59

64

49

82

55

 

11

55

29

66

47

66

65

47

83

55

 

12

55

30

56

48

67

66

44

84

66

 

13

43

31

47

49

63

67

60

85

66

 

14

44

32

57

50

46

68

62

86

56

 

15

55

33

57

51

44

69

67

87

57

 

16

55

34

66

52

30

70

66

88

57

 

17

45

35

67

53

30

71

65

89

37

 

18

45

36

57

54

30

72

55

90

39

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 1.20 – Гистограмма для переменной Var 1

30