Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Для диссертантов_статанализ.doc
Скачиваний:
5
Добавлен:
16.08.2019
Размер:
249.34 Кб
Скачать

Поговорим о случайности средних

Представим, есть карьер. Вам принесли из него выборку камней в количестве штук 100 и вы посчитали средний вес. Затем Вам принесли другую выборку, и вы вновь провели тот же расчет и так много раз. Легко понять, что каждый раз будут получаться разные числа. Т.е. результат получается случайным. И какой на самом средний вес камней в карьере мы определить точно не в состоянии, хотя, конечно, он есть, если все камни перевешать, но это невозможно.

Лучше сделать допущение, считать, что средняя величина случайная, и использовать понятие доверительного интервала. Да, мы не сможем точно сказать, какой средний вес точно, но зато мы сможем определить, в каком доверительном интервале он находится. Не считать же весь карьер.

Но мы помним, что для расчета доверительного интервала случайной величины нужно рассчитать среднеквадратичное отклонение, а для этого нужно провести много измерений. Проведешь мало, значит доверительный интервал будет широкий. Перспектива из не приятных считать средние многих выборок..

Стандартная ошибка среднего

И, о, да, здравствуют математики! Они открыли великий закон, что среднеквадратичное отклонение для средней в корень из n меньше чем среднеквадратичное отклонение выборки. Т. е., достаточно провести расчеты одной выборки.

Для того, чтобы не путаться дальше по тексту, где говорится о среднеквадратичном отклонении параметра, а где о среднеквадратичном отклонении средней величины параметра, давайте условимся называть ее стандартной ошибкой среднего. Ведь, в принципе как мы уже убедились, она показывает, на сколько мы можем ошибаться в определении истинной средней величины.

Кстати, в разных книгах это все называется по разному.

Доверительный интервал среднего

Стандартная ошибка среднего всегда меньше, чем среднеквадратичное отклонение, значит и доверительный интервал для среднего уже, чем для самого параметра. Более того, мы уже говорили о том, что распределение среднего значения даже у кубика близко к нормальному, что уж говорить об остальных. А для нормального закона, формулы гораздо лучше разработаны, поэтому и коэффициенты для доверительного интервала среднего не так катастрофически растут с уменьшением n. Например, для n=6 доверительный интервал +/-2.571S, вспомните, что для параметра это достигает +/-7,5s. Найти их можно по таблице Стьюдента.

Дихотомные параметры

Есть такие параметры, которые отвечаю на вопрос “да” “нет”. Например, камни в кучи белые и черные. Параметр “Камень белый?” имеет два ответа “да” или “нет”. Какой смысл имеет в данном случае средняя величина?

Если принять, что белый цвет это 1, а черный это 0, и средняя величина получилась равная 0,5, будет говорить что, тех и тех поровну.

Т.е средняя для дихотомных показывает, какая доля ответов “да”. Доля p=m/n. Где m-количество положительных исходов, а n – количество испытаний.

Что такое доверительный интервал для дихотомного параметра? Как мы знаем, значение он может принимать только “да” и “нет”,1 либо 0. Поэтому обычное заключение о том, что у 95% в популяции ответ будет от “да” до “нет” не очень интересен.

А вот доверительный интервал для среднего значения (доли) не менее интересен, чем для числовых данных.

Мы уже говорили, что распределение доли не всегда подчиняется нормальному закону. Это в том случае, когда количество положительных (или отрицательных) исходов меньше 5 независимо от количества испытаний, тогда распределение называется биноминальным, и доверительный интервал определяется из таблицы.

Например, из 100 человек, встреченных на улице, только у 3 повышенная температура. Доверительный интервал доли нужно искать по таблицам.

Не впечатляет?

Допустим, что из 100 человек вообще ни нашлось ни одного с высокой температурой. Если считать среднеквадратичное отклонение получим 0. Нельзя же сделать заключение, что в городе вообще нет ни одного человека на улице с высокой температурой. И из таблицы для биноминального распределения мы найдем вполне четкий доверительный интервал от 0 до 5%.

Но если число больше или равно 5, то тогда расчет производится как для нормального распределения, при этом доверительный интервал берется всегда как +/-1.96S, независимо от количества членов в группе. Почему так, знают только математики.

Пусть вас не смущает также, что формула для расчета среднеквадратичного отклонения отличается от той, что применяется для числовых параметров.

На самом деле она выводится из той же формулы, просто получается гораздо проще, и раньше, когда не было компьютеров, это облегчало жизнь. Сейчас это не имеет значения.