Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Стеграммы лекций 6-10 и 13

.pdf
Скачиваний:
12
Добавлен:
03.06.2015
Размер:
1.21 Mб
Скачать

Пояснительная записка

Данный текст представляет собой стенограммы лекций №6–10 и 13 курса по планированию эксперимента и обработке данных, прочитанных студентам в весеннем семестре 2013/2014 учебного года. Важно понимать, что это (пока) не официальное учебное пособие, а лишь авторская компиляция материалов по статистическим методам обработки данных, призванная помочь студентам в подготовке к экзамену и, возможно, при обработке результатов их экспериментов на лабораторных занятиях.

В конце каждой лекции приведены задачи, задававшиеся студентам для решения на следующую лекцию. Решения этих задач приведены в конце сборника. Там же приведен список контрольных вопросов и рекомендуемая литература.

Лекция №6 Элементы теории вероятностей

Исторический экскурс Случай исходов с равновероятными шансами

Неоднозначности определения понятия «равновероятный» и логические ловушки

Рассчитать частоту того или иного значения измеряемой переменной – дело простое и быстрое. К сожалению, обычной является ситуация, когда известна одна частота, а надо найти совсем другую. Изучением свойств частот и выяснением, как по одним частотам определить другие частоты, занимается теория вероятностей.

Возникла она в начале 18 века с решения одной задачи, которую маркиз Лопиталь предложил для решения Иоганну Бернулли.

Задача 6.1. Студенты второго курса Саша и Витя решили устроить турнир в Counter-Strike до 10 побед. Пусть при счете 9:8 им пришлось прервать игру. Как им разделить ящик минеральной воды, стоящий на кону?

Разумеется, деление поровну не подойдет, т.к. Саша явно ближе к победе, чем Витя. Пропорциональное деление (9/17 отдать Саше и 8/17 – Вите) также не подходит, поскольку при увеличении количества сыгранных партий при сохранении результата приводит к изменению долевого соотношения выигрышей. Как же быть?

Для определения выигравшего заметим, что достаточно сыграть еще две партии, что дает 4 различных исхода:

1)обе партии выигрывает Саша;

2)первую партию выигрывает Саша, вторую – Витя;

3)первую партию выигрывает Витя, вторую – Саша;

4)обе партии выигрывает Витя.

В первых трех случаях выигрыш забирает Саша, а в четвертом – Витя. Поскольку игроки одинаково искусны в CS, то шансы каждого из четырех исходов одинаковы. Следовательно, шансы студентов на выигрыш соотносятся как 3 к 1, т.е. Саше следует отдать ¾ ставки, а Вите – ¼.

Рассмотрим еще один пример.

Задача 6.2. Будем для простоты считать, что вероятности рождения мальчиков и девочек одинаковы и на вероятность рождения ребенка данного пола не влияет то, какого пола были предыдущие дети. Какова доля семей с детьми одного пола среди двухдетных семей?

Перечислим все возможные варианты: ММ (все мальчики), МД (старший ребенок – мальчик, младший – девочка), ДМ, ДД. Таким образом, имеется 4 варианта, по заданным условиям они равновероятны и два из них соответствуют однополым детям. Итого имеем вероятность ½.

Частая модификация задачи с несколькими равновероятными исходами – когда сообщается дополнительная информация о том, что некоторые исходы невозможны. Например, в задаче 6.2 известно, что по крайней мере один из этих детей – мальчик. Какова вероятность того, что второй ребенок тоже мальчик? В связи с дополнительной полученной информацией вариант ДД невозможен. Следовательно, остаются три возможных варианта ММ, МД и ДМ. В результате получаем вероятность того, что второй

ребенок мальчик, равна ⅓. Если же сообщается информация не просто о том, что один из детей мальчик, а что старший – мальчик, то остается только два возможных варианта: ММ и МД. В этом случае искомая вероятность равна ½.

Поэтому при анализе такого рода ситуаций информацию о том, что именно известно, нужно формулировать очень аккуратно, малозаметные на первый взгляд уточнения приводят к изменению результата.

Как было показано в задачах 6.1 и 6.2, для определения вероятности успешного исхода нужно разделить количество успешных исходов n на общее количество возможных исходов N.

Классический пример случая с равновероятными исходами – игра в рулетку. При игре в рулетку имеется 37 возможных вариантов выпавшего значения – от 0 (зеро) до 36. Если игрок ставит на одно число, то его выигрыш в 36 раз больше поставленного на кон, при постановке на комбинацию из нескольких вариантов выигрыш пропорционально снижается. Поэтому при случайном равновероятном выпадении выигрышных номеров при любой стратегии игрок в среднем теряет 1/37 от поставленной на кон ставки. Выгодно играть в рулетку только в том случае, когда выпадающие номера выигрышей не являются равновероятными или независимыми. Другой возможный вариант – угадывание возможного выпавшего номера по тому, у какого номера рулетки крупье выпускает шарик, в том случае, если крупье бросает шарик слишком стереотипно.

Еще пример. В казино помимо рулетки широко распространена карточная игра «Блэк Джек». В 19 и начале 20 века эта широко распространенная игра приносила владельцам казино стабильный доход, примерно такой же, как и игра в рулетку. Однако в середине 20 века на основании изложенных понятий теории вероятности был проведен математический анализ этой игры и найдена оптимальная стратегия игрока, при которой его средний выигрыш больше либо равен среднему проигрышу. В связи с этим в казино были значительно ужесточены правила игры в «Блэк Джек». Для усложнения слежения за вышедшими картами введено использование наборов из большого количества колод. Кроме того, казино следит за тем, чтобы игроки не проносили в игровые залы вычислительную технику, средства связи и т.д., а также следят за процессом игры, чтобы выявить «счетчиков» – тех, кто считает вышедшие карты и вообще слишком хорошо играет. Были внесены также и соответствующие дополнения в законы, регулирующие работу казино, в соответствии с которыми казино имеют право не допускать в игровые залы любых лиц без объяснения причин.

Выше разбиралась ситуации, когда имеется N возможных исходов и при этом известно, вероятности их одинаковы. Тогда вероятность каждого исхода равна 1/N. Однако возможны ситуации, когда неизвестно, одинаковы или нет вероятности разных исходов, но при этом нет никаких возможностей выяснить, какой из них более вероятен, а какой – менее. Кажется абсолютно естественным из соображений симметрии считать их равновероятными, однако такой «естественный» выбор быстро приводит к противоречиям. Дело в том, что информация об отсутствии различий и информация об отсутствии возможности выявить различия – все-таки разные вещи.

При описании эксперимента, условий выбора образцов и т.д. часто говорят о случайном независимом равномерном отборе. Равномерность означает, что вероятность выбора разных вариантов одинакова. Однако этого недостаточно: выбор, равномерный с одной точки зрения, может быть не равномерным с другой. Такие ситуации иллюстрирует следующая задача о сечении круга случайной прямой. Пусть через световой микроскоп наблюдается срез тонкого прямого сосуда и необходимо определить, с какой вероятностью видимая часть сосуда определяет его толщину.

Задача 6.3. Имеется круг единичного радиуса, который пересечен случайной прямой. Какова вероятность того, что длина хорды больше 3 ?

Решение №1. Пусть h – расстояние от центра круга до пересечения хорды с радиусом. Если h < ½, то длина хорды больше 3 , а если h > ½, то длина хорды меньше

3 . Т.к. h – в пределах от 0 до 1 и равномерно распределена, то искомая вероятность равна ½.

Решение №2. Рассмотрим длину дуги между точками пересечения прямой и линии. Пусть α – угол, под которым эта дуга видна из центра. Угол α от 0 до 180°. Сторона

равностороннего треугольника видна из центра под углом 120° и длина ее равна 3 . Следовательно, вероятность того, что случайная хорда будет короче 3 , равна 120/180 = ⅔. Вероятность того, что хорда будет длиннее 3 , соответственно равна ⅓.

Решение №3. Рассмотрим положение точки O – середины хорды. Если O лежит внутри круга радиусом ½, то длина хорды больше 3 , а если вне, то меньше. Площадь круга составляет ¼ от площади всего круга, а точка середины хорды располагается случайно. Следовательно, вероятность того, что длина хорды больше 3 , равна ¼.

В результате имеется 3 разных решения, основанных на предположениях о равномерности распределения разных величин:

1)расстояния от хорды до центра;

2)угла, под которым видна хорда;

3)положения точки середины хорды.

Описанная задача носит название парадокса Бертрана, описанного французским математиком Жозефом Бертраном в 1888 году. Важно понимать, что никакого парадокса здесь на самом деле нет, а есть лишь нечеткие и расплывчатые формулировки о «случайности» распределения той или иной величины.

В частности, какое из трех решений окажется ближе к истине, зависит от того, каким образом прямая бросается на круг. Теория вероятностей не занимается установлением «истинных» вероятностей тех или иных исходов, она лишь вычисляет из одних вероятностей другие. Правильность же назначенных для конкретной ситуации значений вероятностей определяется экспериментом.

Задача 6.4. В адрес администрации г. Москвы поступила коллективная жалоба жителей спального района на перегруженность по утрам автобусов, идущих в сторону центра. При изучении обоснованности жалобы комиссия выяснила следующее:

1)Плановая загрузка автобусов – 60 пассажиров.

2)В утренние часы по рабочим дням средняя загрузка автобусов, идущих в сторону центра, – 90 пассажиров.

3)В то же время средняя загрузка рейсов, идущих от центра, – 10 пассажиров.

Так как половина рейсов – в сторону центра, половина – от него, то средняя загрузка автобусов составляет 90·0,5+10·0,5 = 50, т.е. составляет 5/6 от плановой загрузки. В связи со средней загруженностью автобусов только на 5/6 комиссия постановила снять 1/6 автобусов с маршрута и направить на коммерческие перевозки по маршруту Москва– Амстердам.

С другой стороны, пассажир с 90% вероятностью попадает в автобус, идущий в сторону центра, и с 10% – в автобус, идущий от центра, поэтому с точки зрения пассажиров загруженность равна 90·0,9+10·0,1 = 82, и автобусы действительно перегружены.

Современный подход к определению базовых понятий теории вероятностей Аксиоматика Колмогорова

В течение двухсот с лишним лет с момента возникновения теория вероятностей была достаточно «мутной» дисциплиной, основанной на скользких предположениях о том, какими свойствами обладает вероятность. Основой теории вероятностей и математической статистики была именно математическая статистика. Сама дисциплина была полуэкспериментальной и считалась частью физики.

Проблему необходимого уточнения базовых понятий решил в 1930-х годах советский математик Андрей Николаевич Колмогоров. После этого теория вероятностей и математическая статистика стала частью математики, причем базисом является именно теория вероятностей, а статистика – ее надстройка.

Современная теория вероятностей использует с легкой руки Колмогорова аксиоматический подход, в рамках которого с самого начала задается язык теории вероятностей и свойства вероятности, которыми можно пользоваться.

Определение. Случайная величина задается тремя объектами: множеством элементарных событий, множеством событий и вероятностями событий.

Элементарными называются те события, которые может принимать случайная величина (рост, вес, сила тока и т.д.). Все, что требуется от множества элементарных событий – это чтобы оно было непустым, т.е. содержало хотя бы один элемент. В принципе, элементарными событиями могут быть весьма сложные объекты (термометры, различные приборы, случайные процессы и т.д.). Мы будем рассматривать лишь простой случай переменных, принимающих числовые значения.

Событиями называются наборы элементарных событий. Например, для случайной величины «возраст студента» одно из событий – «студент – несовершеннолетний», т.е. ему менее 18 лет. Если набор элементарных событий бесконечен, то и в событиях может быть бесконечное число элементарных событий.

Вопрос о том, все ли наборы элементарных событий можно считать событиями, весьма нетривиален. В строгой теории он исследуется при помощи σ-алгебр, интегралов Лебега и прочего специального математического аппарата. Дело в том, что даже для числовых случайных величин все возможные множества элементарных событий брать в качестве событий нельзя, поскольку с некоторыми из них начинаются проблемы. Тем не менее, во второй половине 20 века математикам удалось выяснить, что с любым событием, для построения которого можно задать конечный конструктивный алгоритм, проблем быть не может. Поэтому вы можете не обращать никакого внимания на эти тонкости – любой рассматриваемый вами конкретный набор элементарных событий будет событием.

Приведем несколько примеров.

1)Бросание симметричной игральной кости: элементарных событий 6. Событие

– любой набор из элементарных событий (например, «чет-нечет»).

2)Бросание симметричной монеты до тех пор, пока не выпадет решка. Элементарные события здесь – «решка выпала на n-й раз», где n=1, 2, 3, … Вероятность этого элементарного события равна 12n .

3)Равномерное распределение на отрезке 0;1 . Элементарные события – числа, не меньшие нуля и не большие единицы. События: множества из чисел.

Вобщем виде свойства вероятностей таковы:

1)Вероятность P A того, что произойдет событие A – число между нулем и единицей.

2)Вероятность того, что произойдет хоть что-нибудь, равна 1.

3)Если A1, A2 ,... – набор событий, любая пара которых не имеет общих

элементарных событий (т.е. любые два из них не могут произойти одновременно), то P A1 или A2 или... P A1 P A2 ...

Вычисление вероятностей: как по одним частотам вычислить другие? Условные, априорные и апостериорные вероятности.

Часто при обработке результатов эксперимента мы получаем частоты одних событий, а нужны нам частоты совсем других событий. Поэтому следует освоить технику вычисления вероятностей.

В базовых свойствах вероятности постулируется, что вероятность того, что произойдет хоть что-нибудь, равна 1. Кроме того, для любого события А события «А» и

«неА» – не пересекаются. Следовательно, P A или неА P A P неА 1. Получили следующую теорему:

Теорема 1. P неА 1 P A .

Например, если 78% студентов сдает экзамен, то 22% – не сдает. Эту теорему можно усовершенствовать.

Теорема 2. P A или B P A P B P A и B .

Например, пусть к концу сессии 14% студентов имеют долги, причем у 9% – долги по английскому языку и у 8% – по физкультуре. Тогда долги и по английскому языку, и по физкультуре будут у 9% + 8% – 14% = 3% студентов.

Достаточно часто в добавление к известной вероятности события имеется также некоторая дополнительная информация, которая меняет эту вероятность. Например, вероятность успешной сдачи экзамена студентом равна 70%, однако если студент посетил все лекции, эта вероятность равна 90%.

Для описания таких ситуаций были введены так называемые условные вероятности. Они обозначаются как P A | B и читаются «вероятность события А при условии события

В». Например, если из 100 студентов 70 сдали экзамен, то вероятность сдачи равна 70/100 = 70%. Если же из 100 студентов 60 посетило все лекции и из них 54 сдало экзамен, то

вероятность сдачи экзамена студентом, посетившим все лекции, равна 54/60 = 90%. В этом случае для вычисления условной вероятности используется формула

P A | B P A и B .

P B

Например, пусть среди студентов, сдававших экзамен, 60% посетило все лекции, причем среди всех студентов доля сдавших экзамен и посетивших все лекции, равна 54%. Тогда

P сдал экзамен | посетил все лекции

P сдал экзамен и посетил все лекции

 

54%

90%

P посетил все лекции

60%

 

 

 

При использовании условных вероятностей часто пользуются терминами априорной (буквально – «до опыта») и апостериорной (буквально – «после опыта») вероятности. Действительно, если мы не знаем посещаемость лекций студентом, то априорную вероятность сдачи им экзамена мы оцениваем в 70%, но если мы узнали, что он посетил все лекции, то апостериорная вероятность оценивается уже в 90%.

Определим теперь вероятность сдачи экзамена у студентов, посетивших не все лекции. В условиях рассматриваемого примера было сказано, что посетили все лекции 60% студентов, следовательно не все лекции посетили 40% студентов. Экзамен сдали 70% студентов, причем 54% студентов посетили все лекции. Таким образом, сдавших экзамен и посетивших не все лекции студентов 70% – 54% = 16%. Итого,

P сдал экзамен | посетил не все лекции

P сдал экзамен и посетил не все лекции

 

16%

40%

P посетил не все лекции

40%

 

 

 

Иными словами, не зная о студенте, мы оцениваем априорную вероятность сдачи им экзамена в 70%. Если мы выясняем, посетил ли он все лекции или пропустил парочку, то в зависимости от результата мы оцениваем вероятность сдачи им экзамена в 90% или 40%. Узнав о студенте еще что-нибудь, мы сможем еще уточнить вероятность сдачи им экзамена и т.д.

Независимые события

Определение. События А и В независимы, если вероятность того, что они произойдут одновременно, равна произведению их вероятностей: P A и B P A P B .

Определение. Две случайные величины называются независимыми, если любое событие первой случайной величины не зависит от любого события второй случайной величины.

Вопрос о том, что можно считать независимыми событиями, а что нет – очень сложен. Поэтому тут математики воспользовались аксиоматическим подходом и использовали свойство объекта в качестве его определения. Введенное определение независимости событий хорошо согласуется с интуитивными представлениями о независимости. На основании этого можно получить следующий результат.

Теорема 3. Если А и В – события с ненулевой вероятностью, то они независимы тогда и только тогда, когда P A P A | B .

Иными словами, для независимых событий условные и безусловные вероятности совпадают. События независимы тогда и только тогда, когда информация о том, произошло одно из них или нет, не меняет вероятность того, что произойдет другое событие. Пример: рождение двух мальчиков в семье, или выпадение двух орлов при бросании монетки.

Задача 6.5. Пусть для оборудования операционной нужно закупить аппарат искусственного дыхания. Мы можем воспользоваться двумя моделями. Первая – дорогая импортная модель, которая стоит 10 000$ и дает один отказ на 100 тысяч операций. Кроме этого нам предлагают дешевую отечественную модель, которая стоит всего 1000$, но отказывает на каждой сотой операции. Будем ли мы поддерживать отечественного производителя?

Решение. Покупать аппарат второго типа, несмотря на его дешевизну, мы не должны: фатальный отказ оборудования на каждой сотой операции недопустим. Покупать аппарат первого типа – заметно дороже. Однако есть и лучший выход – можно купить четыре аппарата второго типа и подключить их одновременно, так что при отказе одного из них пациент будет снабжаться воздухом от других. Вероятность независимого отказа одновременно всех четырех аппаратов равна 1%×1%×1%×1% = 10-8. Таким образом, закупка четырех отечественных аппаратов не только в два с половиной раза дешевле закупки аппарата первого типа, но и в тысячу раз надежнее.

Задача 6.6. Вы собираетесь лететь на самолете чартерным рейсом. При ближайшем осмотре самолета вы приходите в ужас от того, что его моторы работают с явными перебоями, но стюардесса вас утешает, т.к. хотя каждый из моторов и отказывает примерно на одном рейсе из ста, но самолет четырехмоторный, и если что, он и на трех моторах долетит. Полетим или откажемся?

Решение. Для принятия обоснованного решения вычислим некоторые вероятности. Для каждого двигателя вероятность того, что он не откажет, равна 0,99. Поэтому вероятность того, что не откажет ни один из двигателей, равна 0,99×0,99×0,99×0,99 =

0,9606.

Далее, вероятность того, что откажет только первый двигатель, а остальные нет, равна 0,01×0,99×0,99×0,99 = 0,0097. Такова же вероятность и для остальных двигателей, поэтому вероятность того, что откажет ровно один двигатель из четырех, неважно какой,

равна 4×0,0097 = 0,0388.

Вероятность того, что у самолета откажет не более одного двигателя, равна 0,9606+0,0388 = 0,9994. Соответственно, вероятность того, что откажет больше одного

двигателя (и самолет не долетит), равна 1–0,9994 = 0,0006, т.е. примерно 6 отказов на 10 тысяч полетов.

Решение о том, нужно ли отказываться от поездки при вероятности гибели в дороге 0,0006 следует принимать на основании ценности поездки. При средней продолжительности жизни в 70 лет (25 тысяч дней) вероятность смерти за день около 0,00004, что всего в 15 раз меньше. Поэтому поездка оправдана, если вы летите в абсолютно безопасное место на отдых или лечение, в результате которого ожидаемое увеличение продолжительности жизни больше чем на две недели.

«Тонкое место» всех подобных расчетов – требование к независимости событий. Действительно, то, что одновременно произойдет несколько редких независимых событий, маловероятно. Однако у них может быть некоторая общая компонента, чей вклад может коренным образом изменить ситуацию. В примере с самолетом есть причины отказа моторов, действующие одновременно: плохие метеоусловия, некачественное горючее, плохое техобслуживание и т.д., поэтому вероятность массового отказа будет выше, чем было получено в расчетах. В примере с аппаратами искусственного дыхания в качестве таких причин могут выступать броски напряжения в сети электропитания. Тем не менее, дать однозначные рекомендации в пользу одного или второго варианта в этих случаях также нельзя, поскольку даже такие выводы будут чисто расчетными и могут сильно расходиться с практикой.

Хорошим иллюстративным примером несоответствия расчетной и фактической надежности является авария на Чернобыльской АЭС. Там для предотвращения разрушения реактора имелось несколько независимых систем обеспечения безопасности. Каждая из них, несмотря на присутствующую вероятность отказа, была достаточно надежна и из-за их независимости и большого количества вероятность одновременного отказа всех систем была астрономически мала. К сожалению, при оценке безопасности разработчики не учли такого маловероятного, но общего для всех систем защиты, фактора, как то, что украинское Министерство энергетики пришлет на АЭС программу проведения испытаний, подразумевающую последовательное ручное отключение всех систем защиты, и оператора, который стал эту программу выполнять.

Другой пример: за то время, пока студент-москвич идет от остановки электрички до института, он встречает около 50 прохожих. Вероятность того, что встреченный будет мужского пола, равна примерно ⅔ (согласно статистике приема абитуриентов в 2013 году). Поэтому вероятность того, что 30 подряд идущих людей окажутся мужского пола,

порядка 23 30 , а вероятность того, что среди 50 встреченных по дороге людей будет набор из 30 юношей подряд, – около 50 23 30 , что примерно равно 2,6·10-4 и случается

примерно раз в 10 лет. Реально же такое событие происходит значительно чаще – каждый день можно встретить студентов из секции легкой атлетики, совершающих утреннюю пробежку.

Закон больших чисел Расчет необходимого объема наблюдений

Ранее нами использовались два разных понятия: частота и вероятность. Частота определяется как доля успешных испытаний в имеющемся наборе наблюдений, а вероятность – как истинное свойство события, которое проявляется через частоту. Для практического использования хорошо было бы знать, насколько частота может отличаться от вероятности.

Ответ на этот вопрос дает краеугольный камень классической теории вероятностей, называемый законом больших чисел.

Теорема 4 (закон больших чисел). По мере увеличения объема наблюдений частота стремится к вероятности.

Конечно, с философской точки зрения тот факт, что когда-нибудь мы все узнаем достаточно точно, не может не обнадеживать. Тем не менее, для практического использования нужен количественный результат. Пусть P A – вероятность события А, а

PN A – его частота, определенная по N наблюдениям.

 

 

 

 

 

P

 

A

1 P

 

A

 

 

Теорема 5 (усиленный закон больших чисел).

P A P

A

~

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Усиленный закон больших чисел – достаточно пессимистичный результат. Он говорит о том, что по мере увеличения объема наблюдений точность определения частоты нарастает достаточно медленно, пропорционально корню квадратному из количества наблюдений. Для того, чтобы повысить точность в 10 раз, нужно объем наблюдений увеличить в 100 раз.

Непрерывные и дискретные случайные величины Функция распределения числовой случайной величины

Некоторые часто встречающиеся случайные величины и их распределения

В ряде рассмотренных ранее примеров случайная величина могла принимать всего одного из нескольких возможных значений. Обобщением таких случайных величин являются дискретные случайные величины, которые могут принимать только одно значение из некоторого (конечного или бесконечного) набора X1, X2, … Их можно задать

набором вероятностей p1 P X1 ,

p2 P X2 , и т.д. Примером дискретной

случайной величины с бесконечным количеством значений может служить случай с подбрасыванием монеты до выпадения первой «решки».

Другим, противоположным классом числовых случайных величин являются непрерывные случайные величины, которые принимают значения из некоторого диапазона x1; x2 . Непрерывную природу имеют такие переменные, как рост, вес