- •Введение
- •1.Структура пакета STATISTICA
- •Структура данных
- •Редактирование данных
- •Источники данных
- •Открытие файла данных
- •Создание файла данных
- •Сохранение файла
- •Импорт файла данных
- •Экспорт файла данных
- •Вычисление основных статистик и построение графиков
- •2. Лабораторные работы по теории вероятностей
- •Выполнение в пакете STATISTICA
- •. Работа с Probability Distr. Calculator
- •Моделирование распределений случайных величин
- •3. Лабораторные работы по статистическим методам
- •Выполнение в пакете STATISTICA
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 5. Доверительные интервалы для разности средних и отношения дисперсий
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 6. Группировка данных по классифицирующему признаку
- •Выполнение в пакете STATISTICA
- •4. Непараметрические методы математической статистики
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Коэффициент ранговой корреляции Спирмена
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Задание 1
- •Задание 2
- •4.8. Критерий знаков (Sign test)
- •4.9. Критерий Вилкоксона (Wilcoxon watched pairs test)
- •Задания для самостоятельной работы
- •5. Однофакторный дисперсионный анализ
- •5.1. Основные понятия
- •5.2. Решение примеров в пакете STATISTICA
- •6. Регрессионный анализ
- •Работа 7. Простая линейная регрессия
- •Литература
нет, |
то |
k |
= |
0, |
и |
|
коэффициент ранговой корреляции Кенделла равен |
|
|||||
|
|
t = 1- |
4k |
= 1. |
|
|
|
|
n(n -1) |
|
|
Чтобы определить скорректированное значение tI , предварительно вычислим:
Ux = |
1 |
[2 ×1+ 2×1+ 2×1+ 2×1] = 4; U y |
= |
1 |
[4×3 + 3× 2] = 9. |
||||||||||||||
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
Таким образом, tI |
|
равно |
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
1- |
2 |
(4 + 9) |
|
|
|
|
|
|
|||||
|
|
tI = |
|
|
|
|
10×9 |
|
|
|
|
|
» 0,833. |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
æ |
- |
2× 4 |
öæ |
- |
|
|
2×9 |
ö |
|
|
|
||||||
|
|
ç1 |
|
|
|
|
֍1 |
|
|
|
|
÷ |
|
|
|
||||
|
|
|
|
|
|
10 |
×9 |
|
|
|
|||||||||
|
|
è |
|
10×9 øè |
|
ø |
|
|
|
Задания для самостоятельной работы
В следующих задачах вычислите коэффициенты ранговой корреляции Спирмена и τ Кендалла. Проверьте значимость полученных результатов, сравните коэффициенты ранговой корреляции и прокомментируйте их.
1.Бегуны, ранги которых при построении по росту были 1, 2, …, 10, заняли на состязаниях следующие места:
6, 5, 1, 4, 2, 7, 8, 10, 3, 9.
Как велика ранговая корреляция между ростом и быстротой бега?
2.Цветные диски, имеющие порядок оттенков 1, 2, …, 15, были расположены испытуемым в следующем порядке:
7, 4, 2, 3, 1, 10, 6, 8, 9, 5, 11, 15, 14, 12, 13.
103
Охарактеризовать способность испытуемого различать оттенки цветов с помощью коэффициентов ранговой корреляции между действительными и наблюдаемыми результатами.
3. Найти коэффициент ранговой корреляции между урожайностью пшеницы и картофеля на соседних полях по следующим данным:
Годы |
Пшеница, ц |
Картофель, ц |
1926 |
20,1 |
7,2 |
1927 |
23,6 |
7,1 |
1928 |
26,3 |
7,4 |
1929 |
19,9 |
6,1 |
1930 |
16,7 |
6,0 |
1931 |
23,2 |
7,3 |
1932 |
31,4 |
9,4 |
1933 |
33,5 |
9,2 |
1934 |
28,2 |
8,8 |
1935 |
35,3 |
10,4 |
1936 |
29,3 |
8,0 |
1937 |
30,5 |
9,7 |
4. Для контрольной партии интегральных схем по нескольким параметрам определен критерий годности
K.
Найти коэффициенты ранговой корреляции между значениями K и удельного сопротивления p-кармана Rp , а также между значениями Rp и напряжениями
отсечки Vо по следующим данным:
K 0,2260,1870,6780,1410,197 0,339 0,421 0,1410,1270,819
Rp, (Ом·мм2)/м 905 1004 1119 1200 1340 1261 1140 1190 1060 1130
Vо, B |
1,2 1,9 1,7 1,5 4,5 |
2,2 |
2,3 2,4 1,8 1,4 |
104
Проверить значимость полученных коэффициентов при α = 0,10.
5. Измерения длины головы x и длины грудного плавника y у 16 окуней дали результаты (мм):
x 66 61 67 73 51 59 48 47 58 44 41 54 52 47 51 45
y 38 31 36 43 29 33 28 25 36 26 21 30 20 27 28 26
Найти коэффициенты ранговой корреляции. Проверить значимость полученного результата при α = 0,05.
Найти коэффициент корреляции Пирсона и проверить его значимость при α = 0,05 в предположении, что выборка наблюдений получена из нормально распределенной двумерной совокупности.
6. Связь между массой тела x и количеством гемоглобина в крови y у павианов-гамадрилов
характеризуется следующими данными: |
|
|
|
|
|
|
|
|
||||||||||
Масса тела, |
|
17,7 |
|
19 |
|
18 |
|
19 |
|
22 |
|
21 |
|
21 |
|
20 |
|
30 |
18 |
|
|
|
|
|
|
|
|
||||||||||
кг |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Гемоглобин |
70 |
74 |
|
72 |
|
80 |
|
77 |
|
80 |
|
80 |
|
89 |
|
76 |
|
86 |
(по Сали) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Найти коэффициенты ранговой корреляции и |
|
|||||||||||||||||
проверить их значимость при α = 0,05. |
|
|
|
|
|
|
|
|
|
|||||||||
Найти коэффициент корреляции Пирсона. |
|
|
|
|
|
|
105
4.4. Критерий серий Вальда -
Вольфовица (Wald - Wolfowitz runs test)
Критерий серий применяется для проверки гипотезы Н0, утверждающей, что две группы данных представляют случайные независимые выборки с объемами n1 и n2 из одной генеральной совокупности,
т.е. не отличаются друг от друга по наблюдаемому признаку.
Результаты наблюдений записываются в виде вариационного ряда объединенной выборки, а принадлежность данных к той или иной группе определяется с помощью кодирующей переменной, принимающей два значения: 0 и 1; + и – ;1 и 2 и так далее. Полученную таким образом последовательность назовем последовательностью кодов.
Серией в последовательности кодов называется всякая подпоследовательность, состоящая из одинаковых кодов и ограниченная противоположными кодами либо находящаяся в начале или конце исходной последовательности. Например, в последовательности кодов:
0 1 0 0 0 1 1 1 1 1 0 0 имеется пять серий: (0), (1), (0 0 0), (1 1 1 1 1), (0 0).
106
Статистикой критерия является число серий N в последовательности кодов. Если гипотеза Н0 верна, то обе выборки должны быть хорошо перемешаны в общем вариационном ряду и число серий N должно быть велико. Если выборки получены из генеральных совокупностей с разными распределениями, различающимися средними значениями или разбросом, то число серий N, по-видимому, будет мало.
Критическая |
область определяется неравенствами |
N £ N1 и N ³ N2 , |
где значения N1 и N2 определяются по |
объему выборок n1 и n2 и уровню значимости α (см.,
например, [1], табл.П11, α = 0,05).
При больших объемах выборок (n1 > 20 и/или n2 > 20) для проверки гипотезы Н0 можно использовать статистику Z:
|
|
|
æ |
2n1n2 |
ö |
|
1 |
|
|
|
|
||||
|
|
N - ç |
n + n |
|
+1÷ |
- |
2 |
|
|
|
|
||||
Z = |
|
|
è |
|
1 |
|
2 |
ø |
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
2n n |
( |
2n n - n - n |
) |
||||||||||||
|
|
1 |
2 |
|
|
1 |
2 |
1 |
|
2 |
|
|
|
|
|
|
|
(n + n |
|
)2 |
(n + n -1) |
|
|
|
|||||||
|
|
1 |
|
2 |
|
|
1 |
2 |
|
|
|
|
|
Если гипотеза Н0 верна, то Z имеет (приближенно) стандартное нормальное распределение N(0,1). Гипотеза Н0 принимается на уровне значимости α, если выборочное значение статистики Z, zв удовлетворяет
условию |
|
Zв |
|
£ u1−α |
, где u1−α |
- квантиль нормального |
||||||||
|
|
|||||||||||||
|
|
|
|
|
2 |
2 |
|
|
|
|
|
|
|
|
распределения N(0,1) порядка 1- a |
|
; если |
|
Z |
|
|
> u |
, то |
||||||
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
2 |
|
|
|
в |
|
1−α |
2 |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
гипотеза Н0 отклоняется.
Пример 4.6. При изучении иностранного языка в двух группах студентов использовались две различные методики. После изучения части курса студенты обеих
107
групп написали диктант. Количество ошибок в диктанте таково:
Первая группа |
31, 26, 33, 11, 13, 5, 18, 1, 2, 16, 17, 23, |
|
20, 21, 9; |
Вторая группа |
12, 7, 4, 8, 3, 6, 10, 25, 22, 24, 15, 19, |
|
14, 36, 34, 32, 27, 29, 30, 35, 28. |
Можно ли считать, что применение разных методик не приводит к существенному различию в результатах диктанта? Принять α = 0,01.
Решение. Проверяемая гипотеза H0: обе выборки получены из одной генеральной совокупности. Альтернативная гипотеза H1: выборки получены из разных генеральных совокупностей, т.е. разные методики приводят к различным успехам в изучении языка.
Для проверки гипотезы используем критерий серий. Присвоим элементам первой группы код 1, а элементам второй группы - код 0. Объединим выборки, запишем вариационный ряд и составим последовательность кодов:
1 1 0 0 1 0 0 0 1 0 1 0 1 0 0 1 1 1 0 1 1 0 1 0 0 1 0 0 0 0 1 0
1 0 0 0
Число серий в последовательности кодов N = 22. Первая группа состоит из n1 = 15 элементов, а
вторая - из n2 = 21 элемента. Для проверки гипотезы H0 используем статистику Z. Выборочное значение Z вычисляется по приведенной выше формуле и ровно
zв ≈ 1,044 .
Так как это значение меньше квантили распределения N(0,1) u0,995 = 2,576 , то гипотеза H0 не отклоняется, т.е. различные методики обучения не влияют на результаты диктанта.
108
Чтобы решить задачу в пакете STATISTICA, необходимо записать данные в две переменные. В одну переменную (dependent variables) надо последовательно занести обе выборки, а в другую (grouping variables) - коды, определяющие принадлежность элементов к той или иной выборке (рис.4.5).
Рис.4.5. Критерий серий: ввод данных
В результате получим:
No. of runs (число серий) = 22,
No. of ties (число совпадающих значений) = 0,
Z adjstd (скорректированное на непрерывность выборочное значение Z) = 1,044466
p–level
( p = P é |
|
Z |
|
> z |
ù) = 0,296278. |
|
|
||||
ë |
|
|
|
|
в û |
В пакете STATISTICA решение выглядит, как на рис.4.6.
Рис.4.6. Результаты решения примера 4.6 Таким образом, гипотеза H0 не отклоняется.
109
4.5. Критерий Манна - Уитни (Mann - Whitney U test)
Критерий применяется для сравнения двух независимых выборок объемом n1 и n2 и проверки гипотезы H0, утверждающей, что выборки получены из однородных генеральных совокупностей и, в частности, имеют равные средние и медианы, т.е. применяется в тех же условиях, что и критерий серий.
Статистика W-критерия определяется следующим образом. Расположим n1 + n2 значений объединенной
выборки в порядке возрастания, т.е. в виде вариационного ряда. Каждому элементу ряда поставим в соответствие номер в ряду - ранг.
Если несколько элементов ряда совпадают по величине, то каждому из них присваивается ранг, равный среднему арифметическому их номеров. Последний элемент в ранжированной объединенной выборке должен иметь ранг n1 + n2 . Этот факт можно
использовать при проверке правильности ранжирования.
Пусть R1 - сумма рангов первой выборки; R2 - сумма
рангов второй выборки. Вычислим значения w1 и w2, которые определяются формулами
w1 = n1n2 + n1 (n1 +1) − R1, 2
w2 = n1n2 + n2 (n2 +1) − R2. 2
Правильность вычислений проверяется по формуле
w1 + w2 = n1n2 .
110
Выборочное значение wв статистики критерия есть наименьшее из чисел w1 и w2.
В таблице (табл.П10 [1]) приводятся вероятности
того, что W < wв , при условии, |
что гипотеза H0 верна, |
||||
т.е. значения |
|
|
|
|
|
p = P |
éW < wв |
H |
|
ù |
, |
|
ê |
0 |
ú |
|
|
|
ë |
|
û |
|
для выборок объемом n1 и n2 ( n1 > n2 ).
При односторонней (двусторонней) альтернативной гипотезе H1 гипотеза H0 отклоняется, если p < α , p < 2α ,
где α - заданный уровень значимости. В противном случае гипотеза H0 не противоречит результатам наблюдений.
Если объем каждой из выборок больше 8 , то проверку гипотезы Н0 можно проводить, используя статистику
|
|
|
W - |
|
1 |
n n |
|
|
|
|||
|
|
|
2 |
|
|
|
||||||
zв = |
|
|
|
|
|
1 2 |
|
|
, |
|||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|||||
|
1 |
n n |
(n + n |
+1) |
|
|
||||||
12 |
||||||||||||
1 |
2 |
1 |
2 |
|
|
|
имеющую (при условии, что верна гипотеза Н0) приблизительно стандартное нормальное распределение N(0,1). В этом случае гипотеза Н0 отклоняется на уровне значимости α, если выборочное значение zв статистики Z удовлетворяет неравенству
zв < uα (zв > u1−α )
при левосторонней (правосторонней) альтернативной гипотезе H1 и если
zв > u1−α 2
при двусторонней альтернативной гипотезе H1 .
111
Пример. 4.7. Измерялось напряжение пробоя у диодов, отобранных случайным образом из двух партий. Результаты измерения (в вольтах) следующие:
Первая партия |
50 |
41 |
48 |
60 |
46 |
60 |
51 |
42 |
62 |
54 |
42 |
46 |
Вторая партия |
38 |
40 |
47 |
51 |
63 |
50 |
63 |
57 |
59 |
51 |
– |
– |
Имеются ли основания утверждать, что напряжение пробоя у диодов обеих партий равно? Решить пример, используя критерий Манна - Уитни. Принять α = 0,10.
Решение. Составим вариационный ряд, отметив принадлежность элемента к первой партии черточкой сверху. В результате получим следующую ранжированную последовательность:
Элемент |
38 |
40 |
___ |
|
___ |
___ |
|
|
___ |
|
___ |
|
47 |
|
___ |
___ |
|
|
50 |
||||||||||||
41 |
|
42 |
42 |
|
|
46 |
|
46 |
|
|
48 |
50 |
|
|
|||||||||||||||||
Ранг |
1 |
2 |
3 |
|
4,5 |
4,5 |
|
|
6,5 |
|
6,5 |
|
8 |
|
|
9 |
|
|
10,5 |
|
10,5 |
||||||||||
|
Элемент |
|
|
|
51 |
|
51 |
|
___ |
|
57 |
|
59 |
|
___ |
|
|
___ |
|
___ |
|
63 |
|
63 |
|
||||||
|
|
___ |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
51 |
|
|
|
54 |
|
|
|
60 |
|
|
60 |
|
62 |
|
|
|
|||||||||||||
|
Ранг |
|
13 |
|
13 |
|
13 |
|
15 |
|
16 |
|
17 |
|
18,5 |
18,5 |
|
20 |
|
21,5 |
|
21,5 |
|
Найдем суммы рангов для каждой партии:
R1 = 129,5; R2 =123,5 .
Так как n1 = 12, n2 = 10 , то
w1 = 12×10 + 12×(12 +1) -129,5 = 68,5, 2
w2 = 12×10 + 10×(10 +1) -123,5 = 51,5. 2
Выборочное значение wв статистики критерия таково:
wв = 51,5 .
112
Так как n1 > 8, n2 > 8 , то для проверки гипотезы H0
используем статистику Z. Выборочное значение этой статистики определяется по формуле
|
|
|
51,5 - |
1 |
×12 ×10 |
|
|
|
|
zв = |
|
|
2 |
|
|
» -0,56. |
|||
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|||
|
|
|
|
|
|||||
|
1 |
×12×10(12 +10 |
+1) |
|
|
||||
12 |
|||||||||
|
|
|
|
|
|
Проверяемое предположение соответствует двусторонней альтернативной гипотезе, следовательно, значение zв сравнивается с квантилью стандартного
нормального распределения u1−α 2 , которая определяется
по таблице:
u1−α 2 = u0,95 = 1,645.
Так как /–0,56/ < 1,645, то гипотеза H0 о равенстве напряжения пробоя у диодов обеих партий не отклоняется.
В пакете STATISTICA решение выглядит, как на рис.4.7.
Рис.4.7. Решение примера 4.7
Таким образом, утверждение о том, что напряжение пробоя у диодов обеих партий равно, следует принять.
113
4.6. Двухвыборочный критерий Колмогорова - Смирнова (Kolmogorov -
Smirnov two-sample test)
Тест применяется для проверки гипотезы о том, что две независимые выборки x1 , x2 , …, xn1 и y1 , y2 , …, yn2
получены из одной генеральной совокупности, т.е.
функции распределения F1(х) и F2(х) двух генеральных совокупностей равны (в этом случае говорят, что генеральные совокупности однородны)
H0 : F1 (x) º F2 ( y) y=x
при альтернативной гипотезе H1 : F1 (x) ¹ F2 ( y) y=x .
Статистикой критерия является максимальная разница между эмпирическими функциями распределения, построенными по выборкам:
D = max F1* (x) - F2* ( y) .
Критические значения для статистики D приводятся в таблицах [20].
При больших (> 40) значениях n1 и n2 используются следующие критические значения:
∙ при α = 0,05, D = 1,36 n1n2 ;
крит |
|
|
|
|
n1 |
+ n2 |
|
|
|
||
|
114 |
|
|