Статистические пакеты в процессе изучения теории вероятностей и статистики
История математики в школе и вузе – это, помимо прочего, и история борьбы
с ... вычислительными средствами.
Сначала (на уроках устного счета, например)
запрещали пользоваться бумагой и ручкой,
затем (при освоении счета «столбиком») –
калькулятором и, наконец, при решении
более сложных задач – компьютером
с современными математическими
программами Mathematica, Maple, Matlab,
MathCad, SMath, Derive и др.
(Журнал «Открытое образование» – http://www. e-ioe.ru, №2, за 2013 год, Очков В.Ф. «Преподавание математики и математические пакеты»).
В своей прекрасной и очень просто написанной статье В.Ф. Очков анализирует причины, в силу которых компьютерные пакеты не находят должного применения в преподавании математики как в школе, так и в вузе. Но то, что это положение изменится (и уже изменяется!) понятно каждому, кто преподает математические дисциплины, нравится это ему или не нравится.
Первые шаги в этом направлении были сделаны довольно давно, в 80-90 годы.
В это время появляются первые «персональные» компьютеры и первые математические пакеты. Эти математические пакеты позволяли пользователю, не умеющему программировать, решать прикладные и чисто теоретические задачи, требующие больших объемов вычислений или даже символических преобразований. К числу вычислительно трудоемких задач традиционно относятся и способы статистической обработки информации в различных науках – экономике, биологии, медицине, психологии, демографии и многих других. Это обусловило появление большого числа (по данным Международного статистического института [http://isi-web.org] более 1000) статистических математических пакетов, которые можно условно разделить на два класса – универсальные (ну очень большой класс решаемых задач) и специализированные (решение довольно узкого круга задач, например, анализ временных рядов). Благодаря им статистический анализ данных стал доступен широкому кругу пользователей, максимально сокращая рутинные трудоемкие и не всегда понятные вычислительные процедуры. Из зарубежных можно назвать такие как:SPSS,Statistica,Statgraphics,NCSS,Systat,SAS,R, RapidMiner, WEKA,BMDPS-Plus,Minilab,Gretlи т.д.
Наши, отечественные, пакеты: – Stadia, Мезозавр, Эвриста, Статистик-консультант,MedStatи т.д. Сюда надо добавить и пакеты, в которых возможность статистических расчетов, входит как часть того, что с их помощью можно делать. Это такие гиганты для профессионалов математики какMathematica,Maple,MatLabиMathCad. Анализ статистических данных можно производить и с помощью такого широко распространенного табличного редактора какExcelи его аналоговCalc,Gnumeric. (Ниже авторы укажут наExcelи еще один ..., как на наиболее подходящие, с их точки зрения, для использования в преподавании статистики).
Довольно высокая стоимость (от 10 000 руб. до 150 000 руб.) профессиональных пакетов вызывает спрос на свободно распространяемое программное обеспечение - СПО (примерами таких программ для статистической обработки данных служат: среда R, RapidMiner, WEKA,Dataplot,StatistX,Gretlи другие [ см.сайтwww.freestatistics.info] ). Есть и СПО аналогов универсальных математических пакетов с весьма неплохими возможностями анализа данных, пригодные для научных и студенческих исследований с небольшими объемами выборок –Maxima,GeoGebra.
Нашей задачей служит выделение пакета – помощника при преподавании курса теории вероятностей и математической статистики. Конечно, при таком выборе очень большую роль играют субъективный фактор, но можно указать и ряд объективных критериев, повлиявших на итоговое решение.
Эти критерии суть таковы:
1) Используемая программа должна стоять не только на компьютерах в лабораториях, но и быть у каждого обучающегося на его личном компьютере.
2) Легкость усвоения работы с самим пакетом. Это предполагает дружеский интерфейс. Наличие методической литературы по рассматриваемому пакету. И еще, пожалуй, нечто в организации структуры пакета, которое другими словами как «легкость усвоения» и не выразишь.
3) Набор вычислительных ресурсов, покрывающих возможность решения большинства задач в теории вероятностей и статистике. Плюс хорошая графика, позволяющая делать обучение более наглядным.
Учет первого требования сразу, к сожалению, убирает все платные пакеты. Если бы этого не было, то пальма первенства была бы отдана Stadia(илиStatistica). Среди полностью бесплатных пакетов нет достаточно популярных, имеющих хорошее методическое обеспечение. И неумолимая логика отбора приводят нас кExcel. Большинство студентов знакомо сExcelеще со школы. Базовые приемы работы с ним проходятся и в вузе на первых курсах в предмете «Информатика». И еще один очень не маловажный резон. Хотя «многие школьные учителя и преподаватели вузов, к сожалению, просто – напросто не умеют работать с компьютерными математическими программами. Компьютер они освоили на уровне офисных программ (текстовый редактор, табличный процессор ...)». Т.е.Excelдостаточно хорошо известен среди людей преподающих математику.
При коллективных решениях бывают в юридической практике так называемые «особые мнения», которые вписываются в протокол решений. У одного из авторов (Усачева В.И.), относительно выбора, есть «особое мнение». Он остановил бы свой выбор на программе GeoGebra, которая, кстати, способна существенно облегчить преподавателю кроме курсов теории вероятностей и статистики и другие курсы высшей математики (очень хороша в геометрии!, математическом анализе, алгебре).
Ниже приводятся краткие характеристики некоторых из перечисленных выше пакетов. Но прежде сформулируем ряд задач теории вероятностей и математической статистики. Способность решать эти задачи и легкость процедуры решения служат одним из критериев для оценки соответствующего пакета в качестве помощника в процессе преподавания предметов стохастического цикла.
Задачи.
1.Имеется коллектив изслучайным образом подобранных человек. При каком значениивероятность события, т.е. того, что среди них есть хотя бы двое имеющих одинаковые дни рождения, наиболее близка к 0,5. (Наиболее распространенный ответ –.) Найти вероятность
2.Один профессор университета двенадцать раз штрафовался за незаконную ночную стоянку автомашины, причём все двенадцать раз это происходило или во вторник или в четверг. Найти вероятность этого события в предположении, что распределение проверок по дням недели равномерно.
3.Задача о движении городского транспорта. Для описания движения транспорта через уличный переход предположим, что каждую секунду имеет место одно испытание Бернулли. Успехом будем называть проезд автомобиля через переход. Допустим, что пешеход может перейти улицу только при условии, что в последующие три секунды переход будет свободным. Найти вероятность того, что пешеходу потребуется ждатьt= 0, 1, 2, 3, 4 секунды
4. Построить графики биномиального закона распределения при различных комбинациях значений() и(). По осиОХоткладывается число испытаний, в которых произошло событиеА, а по осиОYсоответствующие вероятности.
5. Вероятность того, что некий спортсмен-баскетболист забросит мяч в корзину с дальней дистанции, равна 0,7. Найти наивероятнейшее число попаданий в 58 бросках и вероятность этого числа бросков.
6.Расход изделий некоторого типа за рассматриваемый период имеет распределение Пуассона с параметром λ. Первоначальный запас составляет 10 изделий. Какова вероятность того, что этот запас будет достаточным? Каким должен первоначальный запас, чтобы он был достаточным с вероятностьюp=0.95?
7. Дискретная случайная величинаХзадана следующим законом распределения.
10 |
25 |
40 |
55 |
70 |
85 |
100 |
115 |
130 |
145 |
160 | |
0,01 |
0,02 |
0,15 |
0,15 |
0,07 |
0,1 |
0,01 |
0,09 |
0,2 |
0,01 |
0,199 |
Построить многоугольник распределения. Найти функцию распределения. Найти математическое ожидание и дисперсию случайной величины Х.
8. Задана плотность распределениянекоторой случайной величиныХ.
Найти значения постоянной с. Найти функцию распределения, математическое ожидание, дисперсиюи медиану. Построить графикии.
9. Вероятность того, что идущий по улице навстречу прохожий является знакомым равна 0,01. Сколько, среди первых 100 случайно встреченных прохожих, можно встретить знакомых с вероятностью 0,95. Чему равна вероятность того, что знакомых будет больше 10; больше 30, но меньше 50.
10. Случайная величинаХ имеет нормальный закон распределения си. Найти вероятность того, что эта случайная величина примет значение из промежутка.
11. В цехе один из работающих станков (дающих 100p% всей продукции) разладился. После обработки нормально работающим станком некоторый размер детали имеет нормальное распределение с параметрамии. У разладившегося станка при том же значении параметравторой параметр.
Деталь бракуется, если ее замеренный размер отклоняется по абсолютной величине от значенияболее чем на.
Какова доля бракуемых деталей? Какой бы она была, если бы разладка не произошла?
Далее пусть деталь оказалась бракованной. Какова вероятность того, что она была обработана на нормально работающем станке?
12.На грузоперевалочный пункт ежедневно прибывает пять автомашин четырех марок. Автомашина первой марки доставляет груз весом 1т, второй – 2т, третьей – 3т, четвертой – 5т. Вероятности того, что прибывающая машина окажется первой и т.д. марок (независимо от марок других машин) составляет 0.4, 0.3, 0.2 и 0.1. Каково распределение веса груза, доставляемого всеми автомашинами за сутки?
13.Найти маргинальные распределения, математические ожидания, дисперсии, ковариацию и коэффициент корреляции для случайных величин, совместное распределение которых задано таблицей.
Y X |
-2 |
1 |
2 |
5 |
-1 |
0,05 |
0,10 |
0 |
0,10 |
0 |
0 |
0,15 |
0,10 |
0 |
1 |
0,10 |
0,20 |
0,15 |
0,05 |
14.Вычисление на некоторой ЭВМ проводится с точностью до шестого знака после запятой. Для решения определенной задачи требуется вычислить десять миллионов арифметических операций, каждая из которых дает в силу округления выше описанную погрешность. В предположении, что эти погрешности взаимно независимы и суммируются, найти вероятность того, что абсолютная ошибка превысит 0,001.
15. (Цепи Маркова). Задан лабиринт (см. рис. 1.), в котором соседние ячейки соединены автоматически открывающимися через каждые пять минут дверцами. Объект помещается в момент временив левый верхний угол лабиринта –. В момент открытия дверцы объект с равными вероятностями либо остается на месте, либо перемещается в какую-то соседнюю клетку. Найти вероятность того, что через 23 минуты объект можно обнаружить в клетке. В какой клетке с наибольшей вероятностью можно найти объект через 33 минуты, через 24 часа и 3 минуты.
Рис.1.
16. Следующая таблица (в тексте приведен укороченный вид; исходная таблица, по которой и приводятся расчеты, содержит данные о 100 респондентах) взята из набора файлов примеров пакетаStatistica[файл Characteristics]
Пол |
Цвет глаз |
Цвет волос |
Рост (в дюймах) |
Вес (в фунтах) |
Возраст |
Индекс самочувствия |
Индекс уровня здоровья |
Тест 1 |
Тест 2 |
Тест 3 |
Итог тестирования |
муж |
голубые |
шатен |
69 |
261 |
32 |
61,134 |
58,974 |
8 |
16 |
17 |
13,667 |
муж |
зеленые |
шатен |
66 |
154 |
78 |
38,471 |
50,776 |
5 |
16 |
12 |
11,000 |
жен |
карие |
шатен |
67 |
198 |
32 |
38,985 |
65,185 |
8 |
21 |
14 |
14,333 |
муж |
зеленые |
темные |
70 |
144 |
35 |
62,206 |
75,948 |
5 |
21 |
17 |
14,333 |
муж |
голубые |
шатен |
65 |
185 |
50 |
47,900 |
71,653 |
13 |
16 |
16 |
15,000 |
муж |
голубые |
шатен |
70 |
165 |
58 |
66,049 |
47,883 |
12 |
24 |
17 |
17,667 |
муж |
карие |
шатен |
63 |
212 |
33 |
19,555 |
44,571 |
11 |
20 |
14 |
15,000 |
жен |
карие |
шатен |
72 |
187 |
61 |
44,243 |
59,643 |
8 |
21 |
15 |
14,667 |
жен |
карие |
белокурый |
73 |
161 |
45 |
58,538 |
69,995 |
11 |
17 |
19 |
15,667 |
муж |
карие |
темные |
69 |
133 |
66 |
64,236 |
74,886 |
8 |
15 |
17 |
13,333 |
муж |
голубые |
рыжие |
74 |
202 |
29 |
60,057 |
44,467 |
8 |
21 |
17 |
15,333 |
муж |
голубые |
шатен |
66 |
179 |
39 |
42,567 |
50,304 |
13 |
17 |
11 |
13,667 |
жен |
голубые |
шатен |
70 |
180 |
45 |
60,386 |
54,906 |
8 |
18 |
10 |
12,000 |
жен |
зеленые |
шатен |
71 |
174 |
43 |
44,161 |
75,877 |
9 |
22 |
11 |
14,000 |
муж |
голубые |
рыжие |
69 |
213 |
39 |
44,380 |
44,685 |
8 |
24 |
12 |
14,667 |
муж |
голубые |
шатен |
65 |
175 |
57 |
34,924 |
59,384 |
6 |
16 |
19 |
13,667 |
муж |
зеленые |
темные |
61 |
215 |
20 |
45,083 |
54,659 |
14 |
17 |
10 |
13,667 |
жен |
карие |
темные |
62 |
190 |
36 |
36,367 |
65,344 |
11 |
16 |
16 |
14,333 |
жен |
карие |
белокурый |
67 |
193 |
32 |
45,362 |
49,542 |
6 |
19 |
12 |
12,333 |
жен |
голубые |
шатен |
73 |
168 |
62 |
58,608 |
53,720 |
10 |
24 |
17 |
17,000 |
муж |
зеленые |
темные |
72 |
188 |
32 |
53,952 |
64,561 |
11 |
16 |
11 |
12,667 |
Используя приведенную выше таблицу
дать возможные графические представления данных: гистограмма, полигон частот, график рассеяния (точечная диаграмма, англ.scatter plot);
для каждой из характеристик получить описательные статистики;
данные, представленные в метрической шкале, проверить на нормальность (т.е. проверить гипотезу о том, что данные рассматриваемой выборки взяты из генеральной совокупности, в которой исследуемая случайная величина имеет нормальный закон распределения);
есть ли статистически значимое (уровень значимости 0,05) различие в весе или росте у мужчин и женщин;
есть ли статистически значимое (уровень значимости 0,05) различие в результатах тестирования у мужчин и женщин; у мужчин шатенов и женщин брюнеток;
есть ли статистически значимое (уровень значимости 0,05) различие между количеством кареглазых и голубоглазых респондентов;
есть ли статистически значимое (уровень значимости 0,05) различие в весе в зависимости от цвета волос;
существует ли статистически значимая (уровень значимости 0,05) корреляция между ростом и весом; между весом и значением индекса самочувствия; между результатами тестирования по тесту1 и тесту 2;
получить уравнение линейной функции регрессии веса на возраст; оценить статистическую значимость коэффициентов полученного уравнения;
изменятся ли выводы по пунктам 4) – 8) при изменении уровня значимости с 0,05 на 0,01.