- •Введение
- •1.Структура пакета STATISTICA
- •Структура данных
- •Редактирование данных
- •Источники данных
- •Открытие файла данных
- •Создание файла данных
- •Сохранение файла
- •Импорт файла данных
- •Экспорт файла данных
- •Вычисление основных статистик и построение графиков
- •2. Лабораторные работы по теории вероятностей
- •Выполнение в пакете STATISTICA
- •. Работа с Probability Distr. Calculator
- •Моделирование распределений случайных величин
- •3. Лабораторные работы по статистическим методам
- •Выполнение в пакете STATISTICA
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 5. Доверительные интервалы для разности средних и отношения дисперсий
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 6. Группировка данных по классифицирующему признаку
- •Выполнение в пакете STATISTICA
- •4. Непараметрические методы математической статистики
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Коэффициент ранговой корреляции Спирмена
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Задание 1
- •Задание 2
- •4.8. Критерий знаков (Sign test)
- •4.9. Критерий Вилкоксона (Wilcoxon watched pairs test)
- •Задания для самостоятельной работы
- •5. Однофакторный дисперсионный анализ
- •5.1. Основные понятия
- •5.2. Решение примеров в пакете STATISTICA
- •6. Регрессионный анализ
- •Работа 7. Простая линейная регрессия
- •Литература
Работа 4. Доверительные интервалы. Проверка гипотез о параметрах и виде
распределения
Основные понятия
Выборка как система независимых случайных величин - выборочный вектор.
Распределение выборки и основных выборочных характеристик: выборочного среднего и выборочной дисперсии в случае нормально распределенной генеральной совокупности.
Определения и свойства распределений χ2, Стьюдента и Фишера.
Доверительные интервалы для среднего и дисперсии.
Статистические гипотезы о параметрах и их проверка по критериям значимости.
Статистика критерия. Уровень значимости. Критическая область. Ошибки 1-го и 2-го рода.
Проверка гипотезы о виде распределения. Критерий
χ2.
Литература.
[1], гл. 19, §2, §3, §4, §6; [2], гл. 2, с. 33 - 34; гл. 3, с.61 - 66, с. 72 - 76; гл. 4, с.79
- 97, с. 102 - 108.
Задание
По выборке из своего варианта, используя результаты расчетов работы 3, выполнить следующие расчеты и задания:
1) вычислить доверительные интервалы для среднего и дисперсии нормально распределенной генеральной совокупности при доверительных вероятностях 1 – α = 0,95 и 1 – α = 0,90;
49
2) |
на уровне значимости α = 0,01 |
проверить |
|||||
гипотезы: |
|
|
|
|
|
||
а) Н0 : |
m = М0, где М0 = x + 0,5s , |
где x |
- оценка |
||||
среднего, |
|
|
|
|
а |
||
s - оценка среднего квадратического отклонений; |
|||||||
б) |
H |
0 |
: σ2 = A , где A = 2s ; |
|
|
||
|
|
|
0 |
0 |
|
|
|
3) |
на |
уровне |
значимости α = |
0,05 |
проверить |
гипотезу о нормальном распределении генеральной совокупности по критерию χ2;
|
4) ввести данные в пакет STATISTICA, выполнить |
все |
расчеты |
пп. 1) - 3), сравнить результаты и записать в отчет.
Выполнение в пакете STATISTICA
Доверительные интервалы для среднего нормально распределенной генеральной совокупности при заданной доверительной вероятности вычисляются в модуле Basic Statistics/Tables в подменю Descriptive Statistics (см. работу 3). Например, 95%-ный доверительный интервал для среднего вычисляется по выборке объема 20 из работы 3 и имеет границы: (9,649621; 13,35038). Используя этот результат, можно на 5%-ном уровне значимости проверить гипотезу H0 : m = m0
при |
альтернативной |
гипотезе |
H1 : m ¹ m0 , |
|
где m0 = x + 0,5s =11,5+ 0,5×3,953679 |
= 13,47884 . |
Так |
как |
|
значение m0 = 13,47... не входит в |
95%-ный доверительный |
|||
интервал, |
то гипотеза H0 : m = 13,47... отклоняется |
на |
уровне значимости 5%.
Доверительные интервалы для дисперсии в пакете STATISTICA не вычисляются.
50
Рассмотрим проверку гипотезы о виде распределения по критерию χ2. Для примера проверим гипотезу о том, что выборка в Работе 1 (переменная VAR1) получена из генеральной совокупности, имеющей нормальное распределение. В качестве параметров распределения математического ожидания m и дисперсии σ2 примем оценки этих параметров x = 11,5 и s2 = 15,63.
Для вычисления статистики χ2 запустите модуль
Nonparamet-rics/Distrib.
В меню Analysis выберите команду Startup Panel. В выпадающем меню выберите раздел Distribution Fitting (Подгонка распределений). Далее, в Continuous Distributions (Непрерывные распределения) выберите Normal (Нормальное распределение). В меню Fitting Continuous Distributions нажмите на кнопку Variable и
выделите переменную VAR1. Нажмите OK. В строке
Distribution выберите пункт Normal.
Число интервалов группирования определяется программой автоматически. Пользователь может изменить число интервалов группирования или принять значение, предлагаемое программой.
Для сравнения со сделанными ранее расчетами установите число интервалов - 4, нижний предел - 5, верхний предел - 19. Нажав ОК, получите таблицу для вычисления статистики χ2. В данном примере число наблюдений (observed frequency) в последнем, четвертом, интервале равно 3.
Так как это значение меньше 5 (см. [1], с. 287), то при подсчете статистики χ2 последний интервал объединяется с предпоследним, третьим, интервалом и число интервалов становится равным 3, число степеней свободы для статистики χ2 равно 0 (3 – 2 – 1 = 0). Таким образом, использовать пакет STATISTICA для проверки
51
гипотезы о нормальном распределении по критерию χ2 по выборке столь малого объема в данном примере нельзя.
Интересно, что гипотеза о том, что выборка получена из генеральной совокупности, имеющей распределение χ2 с числом степеней свободы, равным 11,5 (среднему выборки), принимается на уровне значимости р = 0,607. Чтобы получить этот результат, нажмите Continue … и в появившемся меню в строке Distribution установите Chi-Square и нажмите кнопку
Graph.
Результаты процедуры содержат: результаты группировки, значение статистики χ2 с одной степенью свободы (d.f. = 1, так как 3 – 1 – 1 = 1) и вычисленный
уровень значимости p = P éc2 |
(1) > 0,256 |
ù |
= 0,607 . Так как |
ë |
|
û |
|
вычисленный уровень значимости p больше заданного уровня значимости α = 0,05, то гипотеза принимается.
Заметим, что для проверки гипотезы о виде распределения по критерию χ2 необходимо иметь выборку значительно большего объема, чем 20.
Задания для самостоятельной работы
Задание |
1. |
Смоделируйте |
несколько |
выборок |
объема 200 |
из нормального, экспоненциального и |
|||
равномерного |
распределений |
и |
проверьте |
соответствующие гипотезы по критерию χ2, используя меню Fitting Continuous Distributions.
Задание 2. Решите нижеприведенные задачи и каждой из них:
52
а) определите оценки среднего, дисперсии, медианы, нижнего и верхнего квартилей, коэффициентов асимметрии и эксцесса;
б) постройте 90%-ные доверительные интервалы для среднего и дисперсии;
в) постройте гистограммы, используя пять и восемь интервалов;
г) определите подходящее распределение и проверьте гипотезу о виде распределения по критерию
χ2.
1. Ниже приведен вес (в килограммах) 100 пациентов, желающих пройти курс для его снижения:
103 |
90 |
95 |
106 |
101 |
79 |
98 |
91 |
79 |
87 |
120 |
93 |
88 |
111 |
82 |
84 |
86 |
81 |
86 |
98 |
79 |
83 |
91 |
108 |
105 |
117 |
107 |
97 |
94 |
101 |
106 |
93 |
82 |
121 |
107 |
84 |
87 |
99 |
88 |
111 |
86 |
82 |
79 |
83 |
106 |
106 |
82 |
91 |
85 |
114 |
70 |
79 |
89 |
78 |
112 |
90 |
103 |
82 |
79 |
84 |
98 |
86 |
96 |
90 |
96 |
103 |
83 |
89 |
96 |
99 |
100 |
97 |
87 |
77 |
117 |
87 |
88 |
110 |
104 |
82 |
82 |
61 |
110 |
82 |
95 |
92 |
110 |
108 |
103 |
117 |
94 |
99 |
104 |
102 |
103 |
85 |
95 |
89 |
77 |
93 |
Используя данные, постройте огиву.
Определите процент пациентов, имеющих вес более
100кг.
2.Длины 25 танкеров, проходящих через канал (в метрах), таковы:
66 |
65 |
96 |
80 |
71 |
93 |
66 |
96 |
75 |
61 |
69 |
61 |
51 |
84 |
58 |
73 |
77 |
89 |
69 |
92 |
57 |
56 |
55 |
78 |
96 |
53
Постройте огиву, которая поможет ответить на следующий вопрос: какая доля танкеров пройдет через канал беспошлинно, если пошлина собирается со всех танкеров, длина которых превышает 60 метров?
3. В среднем рыболовное судно за один рейс вылавливает 5 тыс. килограммов рыбы. Данные улова в
20 последних рейсах судна следующие: |
|
|||
6500 |
6700 |
3400 |
3600 |
2000 |
7000 |
5600 |
4500 |
8000 |
5000 |
4600 |
8100 |
6500 |
9000 |
4200 |
4800 |
7000 |
7500 |
6000 |
5400 |
Постройте огиву, которая поможет ответить на следующие вопросы: какова доля среднестатистического улова? какой улов представляет собой среднее значение в данной выборке? каков улов в 80 % рейсов?
4. В течение 50 дней фиксировалось время набора титульного листа газеты. Данные (до десятой доли
минуты) представлены ниже: |
|
|
|
|
|
||||
20,8 |
28,0 |
21,9 |
20,0 |
20,7 |
20,9 |
25,0 |
22,0 |
28,0 |
20,1 |
25,3 |
20,7 |
25,0 |
21,2 |
23,8 |
23,3 |
20,9 |
29,0 |
23,5 |
19,5 |
23,7 |
20,3 |
23,6 |
19,0 |
25,1 |
25,0 |
19,5 |
24,1 |
24,2 |
21,8 |
21,3 |
21,5 |
23,1 |
19,9 |
24,2 |
24,1 |
19,8 |
23,9 |
28,0 |
23,9 |
19,7 |
24,2 |
23,8 |
20,7 |
23,8 |
24,3 |
21,1 |
20,9 |
21,6 |
27 |
Расположите данные в виде вариационного ряда. Постройте частотное распределение и
распределение накопленных частот, используя интервал в 0,8 минуты.
Постройте полигон частот. Используя данные, постройте огиву.
Определите процент случаев, в которых страница набирается не более чем за 24 минуты.
5. Данные, отражающие еженедельный рост ржи (в
сантиметрах), следующие: |
|
|
|
|
|
||||
0,4 |
1,9 |
1,5 |
0,9 |
0,3 |
1,6 |
0,4 |
1,5 |
1,2 |
0,8 |
0,9 |
0,7 |
0,9 |
0,7 |
0,9 |
1,5 |
0,5 |
1,5 |
1,7 |
1,8 |
54
Представьте данные в виде вариационного ряда. Используя интервалы длиной 0,25, постройте
распределение относительных частот.
Постройте огиву и определите долю ржи, которая вырастает более чем на 1 см в неделю.
Какова средний еженедельный рост ржи?
6.За время работы больницы были собраны данные
опродолжительности ожидания автомобиля реанимации пациентом.
Время ожидания, мин:
12 16 21 20 24 3 11 17 29 18
26 4 7 14 25 1 27 15 16 5
Представьте данные в виде вариационного ряда. Исходя из него, что можно сказать о продолжительности ожидания автомобиля реанимации?
Используя шесть классов, постройте гистограмму частот.
Как долго ждут автомобиля реанимации 75% пациентов?
7.Менеджер компании фиксирует время (в минутах), которое идет на переналадку и текущий
ремонт оборудования в шахте в течение рабочей смены. Результаты 35 последних наблюдений приведены ниже:
60 |
72 |
126 |
110 |
91 |
115 |
112 |
80 |
66 |
101 |
75 |
93 |
129 |
105 |
113 |
121 |
93 |
87 |
119 |
111 |
97 |
102 |
116 |
114 |
107 |
113 |
119 |
100 |
110 |
99 |
139 |
108 |
128 |
84 |
99 |
Представьте данные в виде вариационного ряда. Если среднее время простоя оборудования
составляет 108 мин, то во скольких случаях оборудование простаивало более 108 мин, а во скольких
– менее?
55
Постройте |
|
распределение |
|
относительных |
||
накопленных частот с 10-минутными интервалами. |
||||||
8. Производительность труда бригады шахтеров (в |
||||||
тоннах угля за смену) следующая: |
|
|
||||
356 |
331 |
299 |
391 |
364 |
317 |
386 |
360 |
281 |
360 |
402 |
411 |
390 |
362 |
311 |
357 |
300 |
375 |
427 |
370 |
383 |
322 |
380 |
353 |
371 |
400 |
379 |
380 |
369 |
393 |
377 |
389 |
430 |
340 |
368 |
Постройте |
|
распределение |
|
относительных |
||
накопленных частот с шестью равными интервалами. |
||||||
Во скольких |
случаях производительность была |
ниже 330 - 380 тонн за смену, а во скольких - выше?
9. Менеджер по техническому обеспечению в крупной авиакомпании решил проверить партию болтов, полученную от нового поставщика. 25 болтов из этой партии были отправлены на экспертизу для определения предельного усилия на излом. Результаты
экспертизы приведены в тыс. кг: |
|
|
||
67,0 |
62,3 |
56,8 |
64,0 |
66,1 |
54,4 |
60,5 |
64,5 |
62,9 |
57,0 |
64,4 |
59,3 |
58,9 |
64,0 |
61,2 |
56,7 |
58,5 |
64,4 |
53,8 |
60,3 |
68,5 |
57,0 |
57,3 |
63,9 |
62,7 |
Представьте данные в виде вариационного ряда. Какая часть болтов выдержит усилие более, чем
54432 кг, а какая часть - более, чем 68040 кг?
По стандарту болт должен выдерживать усилие не менее, чем 63504 кг. Какая доля выборки болтов окажется непригодной для использования в корпусе самолета?
56