Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Усачев Итоговый файл доп 1.doc
Скачиваний:
44
Добавлен:
08.06.2015
Размер:
4.63 Mб
Скачать

Статистические пакеты в процессе изучения теории вероятностей и статистики

История математики в школе и вузе – это, помимо прочего, и история борьбы

с ... вычислительными средствами.

Сначала (на уроках устного счета, например)

запрещали пользоваться бумагой и ручкой,

затем (при освоении счета «столбиком») –

калькулятором и, наконец, при решении

более сложных задач – компьютером

с современными математическими

программами Mathematica, Maple, Matlab,

MathCad, SMath, Derive и др.

(Журнал «Открытое образование» – http://www. e-ioe.ru, №2, за 2013 год, Очков В.Ф. «Преподавание математики и математические пакеты»).

В своей прекрасной и очень просто написанной статье В.Ф. Очков анализирует причины, в силу которых компьютерные пакеты не находят должного применения в преподавании математики как в школе, так и в вузе. Но то, что это положение изменится (и уже изменяется!) понятно каждому, кто преподает математические дисциплины, нравится это ему или не нравится.

Первые шаги в этом направлении были сделаны довольно давно, в 80-90 годы.

В это время появляются первые «персональные» компьютеры и первые математические пакеты. Эти математические пакеты позволяли пользователю, не умеющему программировать, решать прикладные и чисто теоретические задачи, требующие больших объемов вычислений или даже символических преобразований. К числу вычислительно трудоемких задач традиционно относятся и способы статистической обработки информации в различных науках – экономике, биологии, медицине, психологии, демографии и многих других. Это обусловило появление большого числа (по данным Международного статистического института [http://isi-web.org] более 1000) статистических математических пакетов, которые можно условно разделить на два класса – универсальные (ну очень большой класс решаемых задач) и специализированные (решение довольно узкого круга задач, например, анализ временных рядов). Благодаря им статистический анализ данных стал доступен широкому кругу пользователей, максимально сокращая рутинные трудоемкие и не всегда понятные вычислительные процедуры. Из зарубежных можно назвать такие как:SPSS,Statistica,Statgraphics,NCSS,Systat,SAS,R, RapidMiner, WEKA,BMDPS-Plus,Minilab,Gretlи т.д.

Наши, отечественные, пакеты: – Stadia, Мезозавр, Эвриста, Статистик-консультант,MedStatи т.д. Сюда надо добавить и пакеты, в которых возможность статистических расчетов, входит как часть того, что с их помощью можно делать. Это такие гиганты для профессионалов математики какMathematica,Maple,MatLabиMathCad. Анализ статистических данных можно производить и с помощью такого широко распространенного табличного редактора какExcelи его аналоговCalc,Gnumeric. (Ниже авторы укажут наExcelи еще один ..., как на наиболее подходящие, с их точки зрения, для использования в преподавании статистики).

Довольно высокая стоимость (от 10 000 руб. до 150 000 руб.) профессиональных пакетов вызывает спрос на свободно распространяемое программное обеспечение - СПО (примерами таких программ для статистической обработки данных служат: среда R, RapidMiner, WEKA,Dataplot,StatistX,Gretlи другие [ см.сайтwww.freestatistics.info] ). Есть и СПО аналогов универсальных математических пакетов с весьма неплохими возможностями анализа данных, пригодные для научных и студенческих исследований с небольшими объемами выборок –Maxima,GeoGebra.

Нашей задачей служит выделение пакета – помощника при преподавании курса теории вероятностей и математической статистики. Конечно, при таком выборе очень большую роль играют субъективный фактор, но можно указать и ряд объективных критериев, повлиявших на итоговое решение.

Эти критерии суть таковы:

1) Используемая программа должна стоять не только на компьютерах в лабораториях, но и быть у каждого обучающегося на его личном компьютере.

2) Легкость усвоения работы с самим пакетом. Это предполагает дружеский интерфейс. Наличие методической литературы по рассматриваемому пакету. И еще, пожалуй, нечто в организации структуры пакета, которое другими словами как «легкость усвоения» и не выразишь.

3) Набор вычислительных ресурсов, покрывающих возможность решения большинства задач в теории вероятностей и статистике. Плюс хорошая графика, позволяющая делать обучение более наглядным.

Учет первого требования сразу, к сожалению, убирает все платные пакеты. Если бы этого не было, то пальма первенства была бы отдана Stadia(илиStatistica). Среди полностью бесплатных пакетов нет достаточно популярных, имеющих хорошее методическое обеспечение. И неумолимая логика отбора приводят нас кExcel. Большинство студентов знакомо сExcelеще со школы. Базовые приемы работы с ним проходятся и в вузе на первых курсах в предмете «Информатика». И еще один очень не маловажный резон. Хотя «многие школьные учителя и преподаватели вузов, к сожалению, просто – напросто не умеют работать с компьютерными математическими программами. Компьютер они освоили на уровне офисных программ (текстовый редактор, табличный процессор ...)». Т.е.Excelдостаточно хорошо известен среди людей преподающих математику.

При коллективных решениях бывают в юридической практике так называемые «особые мнения», которые вписываются в протокол решений. У одного из авторов (Усачева В.И.), относительно выбора, есть «особое мнение». Он остановил бы свой выбор на программе GeoGebra, которая, кстати, способна существенно облегчить преподавателю кроме курсов теории вероятностей и статистики и другие курсы высшей математики (очень хороша в геометрии!, математическом анализе, алгебре).

Ниже приводятся краткие характеристики некоторых из перечисленных выше пакетов. Но прежде сформулируем ряд задач теории вероятностей и математической статистики. Способность решать эти задачи и легкость процедуры решения служат одним из критериев для оценки соответствующего пакета в качестве помощника в процессе преподавания предметов стохастического цикла.

Задачи.

1.Имеется коллектив изслучайным образом подобранных человек. При каком значениивероятность события, т.е. того, что среди них есть хотя бы двое имеющих одинаковые дни рождения, наиболее близка к 0,5. (Наиболее распространенный ответ –.) Найти вероятность

2.Один профессор университета двенадцать раз штрафовался за незаконную ночную стоянку автомашины, причём все двенадцать раз это происходило или во вторник или в четверг. Найти вероятность этого события в предположении, что распределение проверок по дням недели равномерно.

3.Задача о движении городского транспорта. Для описания движения транспорта через уличный переход предположим, что каждую секунду имеет место одно испытание Бернулли. Успехом будем называть проезд автомобиля через переход. Допустим, что пешеход может перейти улицу только при условии, что в последующие три секунды переход будет свободным. Найти вероятность того, что пешеходу потребуется ждатьt= 0, 1, 2, 3, 4 секунды

4. Построить графики биномиального закона распределения при различных комбинациях значений() и(). По осиОХоткладывается число испытаний, в которых произошло событиеА, а по осиОYсоответствующие вероятности.

5. Вероятность того, что некий спортсмен-баскетболист забросит мяч в корзину с дальней дистанции, равна 0,7. Найти наивероятнейшее число попаданий в 58 бросках и вероятность этого числа бросков.

6.Расход изделий некоторого типа за рассматриваемый период имеет распределение Пуассона с параметром λ. Первоначальный запас составляет 10 изделий. Какова вероятность того, что этот запас будет достаточным? Каким должен первоначальный запас, чтобы он был достаточным с вероятностьюp=0.95?

7.  Дискретная случайная величинаХзадана следующим законом распределения.

10

25

40

55

70

85

100

115

130

145

160

0,01

0,02

0,15

0,15

0,07

0,1

0,01

0,09

0,2

0,01

0,199

Построить многоугольник распределения. Найти функцию распределения. Найти математическое ожидание и дисперсию случайной величины Х.

8. Задана плотность распределениянекоторой случайной величиныХ.

Найти значения постоянной с. Найти функцию распределения, математическое ожидание, дисперсиюи медиану. Построить графикии.

9. Вероятность того, что идущий по улице навстречу прохожий является знакомым равна 0,01. Сколько, среди первых 100 случайно встреченных прохожих, можно встретить знакомых с вероятностью 0,95. Чему равна вероятность того, что знакомых будет больше 10; больше 30, но меньше 50.

10. Случайная величинаХ имеет нормальный закон распределения си. Найти вероятность того, что эта случайная величина примет значение из промежутка.

11. В цехе один из работающих станков (дающих 100p% всей продукции) разладился. После обработки нормально работающим станком некоторый размер детали имеет нормальное распределение с параметрамии. У разладившегося станка при том же значении параметравторой параметр.

Деталь бракуется, если ее замеренный размер отклоняется по абсолютной величине от значенияболее чем на.

Какова доля бракуемых деталей? Какой бы она была, если бы разладка не произошла?

Далее пусть деталь оказалась бракованной. Какова вероятность того, что она была обработана на нормально работающем станке?

12.На грузоперевалочный пункт ежедневно прибывает пять автомашин четырех марок. Автомашина первой марки доставляет груз весом 1т, второй – 2т, третьей – 3т, четвертой – 5т. Вероятности того, что прибывающая машина окажется первой и т.д. марок (независимо от марок других машин) составляет 0.4, 0.3, 0.2 и 0.1. Каково распределение веса груза, доставляемого всеми автомашинами за сутки?

13.Найти маргинальные распределения, математические ожидания, дисперсии, ковариацию и коэффициент корреляции для случайных величин, совместное распределение которых задано таблицей.

Y

X

-2

1

2

5

-1

0,05

0,10

0

0,10

0

0

0,15

0,10

0

1

0,10

0,20

0,15

0,05

14.Вычисление на некоторой ЭВМ проводится с точностью до шестого знака после запятой. Для решения определенной задачи требуется вычислить десять миллионов арифметических операций, каждая из которых дает в силу округления выше описанную погрешность. В предположении, что эти погрешности взаимно независимы и суммируются, найти вероятность того, что абсолютная ошибка превысит 0,001.

15. (Цепи Маркова). Задан лабиринт (см. рис. 1.), в котором соседние ячейки соединены автоматически открывающимися через каждые пять минут дверцами. Объект помещается в момент временив левый верхний угол лабиринта –. В момент открытия дверцы объект с равными вероятностями либо остается на месте, либо перемещается в какую-то соседнюю клетку. Найти вероятность того, что через 23 минуты объект можно обнаружить в клетке. В какой клетке с наибольшей вероятностью можно найти объект через 33 минуты, через 24 часа и 3 минуты.

Рис.1.

16. Следующая таблица (в тексте приведен укороченный вид; исходная таблица, по которой и приводятся расчеты, содержит данные о 100 респондентах) взята из набора файлов примеров пакетаStatistica[файл Characteristics]

Пол

Цвет глаз

Цвет волос

Рост (в дюймах)

Вес (в фунтах)

Возраст

Индекс самочувствия

Индекс уровня здоровья

Тест 1

Тест 2

Тест 3

Итог тестирования

муж

голубые

шатен

69

261

32

61,134

58,974

8

16

17

13,667

муж

зеленые

шатен

66

154

78

38,471

50,776

5

16

12

11,000

жен

карие

шатен

67

198

32

38,985

65,185

8

21

14

14,333

муж

зеленые

темные

70

144

35

62,206

75,948

5

21

17

14,333

муж

голубые

шатен

65

185

50

47,900

71,653

13

16

16

15,000

муж

голубые

шатен

70

165

58

66,049

47,883

12

24

17

17,667

муж

карие

шатен

63

212

33

19,555

44,571

11

20

14

15,000

жен

карие

шатен

72

187

61

44,243

59,643

8

21

15

14,667

жен

карие

белокурый

73

161

45

58,538

69,995

11

17

19

15,667

муж

карие

темные

69

133

66

64,236

74,886

8

15

17

13,333

муж

голубые

рыжие

74

202

29

60,057

44,467

8

21

17

15,333

муж

голубые

шатен

66

179

39

42,567

50,304

13

17

11

13,667

жен

голубые

шатен

70

180

45

60,386

54,906

8

18

10

12,000

жен

зеленые

шатен

71

174

43

44,161

75,877

9

22

11

14,000

муж

голубые

рыжие

69

213

39

44,380

44,685

8

24

12

14,667

муж

голубые

шатен

65

175

57

34,924

59,384

6

16

19

13,667

муж

зеленые

темные

61

215

20

45,083

54,659

14

17

10

13,667

жен

карие

темные

62

190

36

36,367

65,344

11

16

16

14,333

жен

карие

белокурый

67

193

32

45,362

49,542

6

19

12

12,333

жен

голубые

шатен

73

168

62

58,608

53,720

10

24

17

17,000

муж

зеленые

темные

72

188

32

53,952

64,561

11

16

11

12,667

Используя приведенную выше таблицу

  1. дать возможные графические представления данных: гистограмма, полигон частот, график рассеяния (точечная диаграмма, англ.scatter plot);

  2. для каждой из характеристик получить описательные статистики;

  3. данные, представленные в метрической шкале, проверить на нормальность (т.е. проверить гипотезу о том, что данные рассматриваемой выборки взяты из генеральной совокупности, в которой исследуемая случайная величина имеет нормальный закон распределения);

  4. есть ли статистически значимое (уровень значимости 0,05) различие в весе или росте у мужчин и женщин;

  5. есть ли статистически значимое (уровень значимости 0,05) различие в результатах тестирования у мужчин и женщин; у мужчин шатенов и женщин брюнеток;

  6. есть ли статистически значимое (уровень значимости 0,05) различие между количеством кареглазых и голубоглазых респондентов;

  7. есть ли статистически значимое (уровень значимости 0,05) различие в весе в зависимости от цвета волос;

  8. существует ли статистически значимая (уровень значимости 0,05) корреляция между ростом и весом; между весом и значением индекса самочувствия; между результатами тестирования по тесту1 и тесту 2;

  9. получить уравнение линейной функции регрессии веса на возраст; оценить статистическую значимость коэффициентов полученного уравнения;

  1. изменятся ли выводы по пунктам 4) – 8) при изменении уровня значимости с 0,05 на 0,01.