Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Коваленко Т.В.. Информационные технологии в отрасли. Обработка экспериментальных данных – работа с выборками данных

.pdf
Скачиваний:
4
Добавлен:
15.11.2022
Размер:
575.22 Кб
Скачать

Рис. 2.5. Таблица накопленной плотности нормального распределения

Рис. 2.6. Таблица обратной кривой накопления

11

При необходимости пакет Statgraphics позволяет генерировать набор случайных чисел, распределенных по выбранному закону. Для этого достаточно нажать на кнопку сохранения результатов (четвертая слева на нижней панели инструментов) и выделить пункт Random Numbers и нажать на Ок. Размерность генерируемого ряда чисел можно менять, вызвав по правой кнопке мыши контекстное меню, выбрав пункт Pane Option и указав нужное значение. Чтобы сохранить данные, следует, нажав на третью кнопку слева на нижней панели инструментов, выбрать распределение с удовлетворяющими нас параметрами. Результаты будут помещены в электронную таблицу исходных данных.

2.2. Оценка нормальности случайной выборки

При выполнении ответственных измерений требуется точная оценка характера неизбежных ошибок или погрешностей. Необходимо установить: соответствует ли порядок отклонений нормальному или хотя бы симметричному закону распределения?

Существует множество сложных математических методов, позволяющих получить ответ на этот вопрос, однако исследователь не всегда располагает достаточным временем и ресурсами для подобных расчетов. Поэтому, наиболее простым и быстрым способом проверки выборки на соответствие нормальному закону является нанесение отклонений на так называемую «вероятностную бумагу». В данном случае, под соответствием нормальному закону понимается соответствие ему случайной ошибки относительно истинного значения измерения. Речь идет именно о приближенном соответствии, так как в действительности любая выборка измерений будет в той или иной степени отклоняться от теоретического нормального закона. Однако, если соответствие действительно имеет место быть, то сходство двух кривых распределения (выборочной и теоретической) будет возрастать по мере увеличения числа отсчетов.

«Вероятностная бумага» (рис. 2.7) есть график, на котором нормально распределенная совокупность отсчетов образует прямую линию. При ее построении, на оси Х откладываются отклонения (при этом 0 помещается на середину оси, а шкала подбирается такой, чтобы охватить весь диапазон значений имеющихся данных). По оси Y откладывается процент отклонений, не превышающих данного значения Х (середине оси Y соответствует 50 %). Шкала этой оси разбита на шестнадцать равных интервалов, соот-

ветствующих значениям, %: 1,2; 2,4; 4,5; 7,9; 13,6; 19,8; 27,6 38,8; 50; 61,2; 72,4; 80,2; 87,4; 92,1; 95,5; 97,6; 98,8.

С помощью данного графика можно обнаружить два очевидных признака отклонения от нормального закона. Асимметрия распределения имеет место быть, когда построенная кривая обладает более крутым наклоном в одну сторону относительно максимума, чем в другую. В случае асимметричного распределения на «вероятностной бумаге» можно получить почти прямую линию, но она никогда не пройдет через центральную точку.

12

d

Y

d

b

50%

c

a

0

Х

Рис. 2.7. «Вероятностная бумага»: a – нормальное распределение;

b – симметричное плосковершинное распределение; c – симметричное островершинное распределение; d – два симметричных распределения

Рассмотрим на примере станка, выпускающего заклепки, определение основных характеристик некоторой случайной выборки данных.

Рис. 2.8. Окно с первоначальной сводкой анализа

13

Рис. 2.9. Сводка основных численных значений анализируемой переменной

Таблица 2.1

D, мм

D, мм

D, мм

D, мм

D, мм

п/п

п/п

п/п

п/п

п/п

1

13,39

21

13,34

41

13,33

61

13,45

81

13,37

2

13,42

22

13,57

42

13,26

62

13,32

82

13,48

3

13,38

23

13,26

43

13,26

63

13,44

83

13,46

4

13,53

24

13,33

44

13,55

64

13,58

84

13,51

5

13,51

25

13,43

45

13,54

65

13,50

85

13,29

6

13,30

26

13,50

46

13,37

66

13,36

86

13,42

7

13,40

27

13,44

47

13,31

67

13,40

87

13,69

8

13,40

28

13,53

48

13,37

68

13,50

88

13,60

9

13,28

29

13,48

49

13,33

69

13,37

89

13,31

10

13,43

30

13,48

50

13,54

70

13,30

90

13,39

11

13,46

31

13,34

51

13,32

71

13,50

91

13,46

12

13,53

32

13,36

52

13,52

72

13,40

92

13,52

13

13,29

33

13,59

53

13,39

73

13,28

93

13,38

14

13,24

34

13,36

54

13,62

74

13,31

94

13,42

15

13,34

35

13,44

55

13,40

75

13,64

95

13,18

16

13,54

36

13,34

56

13,23

76

13,31

96

13,61

17

13,66

37

13,33

57

13,45

77

13,53

97

13,36

18

13,43

38

13,25

58

13,47

78

13,57

98

13,39

19

13,42

39

13,28

59

13,56

79

13,58

99

13,45

20

13,38

40

13,49

60

13,42

80

13,57

100

13,40

14

Введем в электронную таблицу данные, согласно табл. 2.1, и обозначим исследуемую переменную через D.

Для запуска процедуры анализа следует выполнить команду Describe/Numeric Data/One Variable Analysis, ввести имя переменной D в

поле Data и нажать на Ок.

В результате на экран будет выведено окно с первоначальной сводкой анализа (рис. 2.8), в которой указано число значений, а также их верхний и нижний предел.

Для отображения результатов анализа следует нажать на кнопку табличных функций (вторая слева на нижней панели инструментов) и выделить пункт Summery Statistic. На экране отобразится сводка (рис. 2.9), содержащая основные числовые характеристики анализируемых значений: среднее арифметическое значение (Average), дисперсия (Variance), среднеквадратическое отклонение (Standard deviation), минимальное значение (Minimum), максимальное значение (Maximum), стандартизированная асимметрия (Stnd. skewness), стандартизированный эксцесс (Stnd. kurtosis), сумма значений (Sum).

Для визуальной оценки данных можно воспользоваться гистограммой частот, которая представляет собой графическое воспроизведение распределения статистических данных, разбитых на группы. Процедура делит весь диапазон изменения данных на ряд непересекающихся интервалов равной ширины. Затем вычерчиваются столбцы для каждого интервала, причем высота столбца пропорциональна числу значений данных, попадающих в соответствующий интервал.

Для того чтобы построить гистограмму частот, следует нажать на кнопку графических функций (третья слева на нижней панели инструментов) и выбрать пункт Frequency Histogram. Из гистограммы (рис. 2.10) хорошо видно, что исследуемая выборка не является распределенной по нормальному закону, а близка к асимметричному. Это подтверждается и «вероятностной бумагой» (рис. 2.11), которую можно получить, выделив пункт Normal Probability Plot диалога графических функций.

2.3. Проверка гипотезы об однородности наблюдений

Под проверкой однородности двух выборок обычно понимают выполнение проверки гипотезы об отсутствии эффекта обработки. В зависимости от типа используемого критерия, исследуемые выборки могут содержать одинаковое или разное количество наблюдений.

Если значение одной выборки обозначить через Xi, а значение другой

Yi, то тогда получим выражение Zi = Yi Xi. Нередко для Zi рассматривают такую модель Zi = θ + ei, где ei – наблюдаемая случайная величина, а θ – некоторая константа, характеризующая положение одного распределения относительно другого. Эту константу часто именуют эффектом обработ-

15

ки. Таким образом, гипотеза однородности формулируется в виде гипотезы

онулевом эффекте обработки Н: θ = 0.

Вкачестве гипотез можно принять следующие заключения:

медиана разностей парных значений в выборках равна 0;

медиана некоторых значений случайной величины (Х) такова, что вероятность попадания случайной величины левее или правее этого значения равна 0,5;

среднее разностей парных значений выборок равно 0.

Для проверки гипотез такого типа используются такие критерии как:

критерий знаков (Sign Test);

Т-тест (T-Test);

критерий знаковых расчетов.

Вэтих тестах количество данных в обеих выборках должно быть одинаковым, поскольку одна выборка вычитается из другой почленно (Yi Xi).

Врассматриваемом ниже примере проверяется, являются ли данные по выработке заготовленной древесины лесозаготовительной бригадой частью одной совокупности (можно ли считать эти выборки однородными).

Рис. 2.10. Гистограмма частот

16

Рис. 2.11. «Вероятностная бумага»

Для ввода исходных данных следует открыть электронную таблицу и внести в разные столбцы значения согласно табл. 2.2 (рис. 2.12).

Xi

Yi

п/п

 

 

1

223

181

2

104

194

3

209

173

4

183

153

5

180

168

6

168

176

7

215

163

8

172

152

 

 

 

Таблица 2.2

 

 

 

 

Xi

Yi

 

п/п

 

 

 

 

9

200

155

 

10

191

156

 

11

197

178

 

12

183

160

 

13

174

164

 

14

176

169

 

15

155

155

 

16

115

122

17

Рис. 2.12. Электронная таблица с анализируемыми выборками данных

Для запуска анализа следует выполнить команду главного меню

Compare/Two Samples/Pared-Sample Comparison, в открывшееся диало-

говое окно (рис. 2.13) ввести имена анализируемых выборок и нажать Ок.

Рис. 2.13. Диалоговое окно ввода в анализ исследуемых выборок

Чтобы получить результаты анализа, следует в открывшемся окне с первоначальной сводкой нажать на кнопку табличных функций (вторая слева на нижней панели инструментов) и установить маркер напротив

18

Summary Statistics. В новом окне (рис. 2.14) содержится сводка основных численных значений анализируемых выборок: среднее арифметическое значение (Average), дисперсия (Variance), среднеквадратическое отклонение (Standard deviation), минимальное значение (Minimum), максимальное значение (Maximum), стандартизированная асимметрия (Stnd. skewness), стандартизированный эксцесс (Stnd. kurtosis), сумма значений (Sum).

Рис. 2.14. Сводка основных численных значений анализируемых выборок

Результаты тестов гипотезы об однородности исследуемых выборок можно вызвать, если, нажав на кнопку табличных функций (вторая слева на нижней панели инструментов), установить маркер напротив Hypothesis Tests. В результате на экран будет выведена сводка, содержащая результаты рассмотренных в начале тестов (рис. 2.15).

Каждый тест содержит в себе первоначальную гипотезу (Null hypothesis), обратную или альтернативную гипотезу (Alternative) и некоторое задаваемое значение alpha, при превышении которого уровнем значимости P-Value делается вывод о справедливости первоначальной гипотезы

(Do not reject the null hypothesis).

Из полученных тестов видно, что подтвердилась только первая гипотеза (среднее разностей парных значений выборок равно 0). Это свидетельствует о том, что говорить о полной однородности исследуемых выборок нельзя.

19

Рис. 2.15. Сводка с результатами трех тестов на однородность выборок

Рис. 2.16. График плотности контрольной выборки

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]