Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
draft_lecture.doc
Скачиваний:
2
Добавлен:
26.04.2019
Размер:
775.17 Кб
Скачать
  1. Математическая статистика

ЛЕКЦИЯ 1.

  1. Предмет и задачи математической статистики.

В научных исследованиях при проведении экспериментов, при анализе результатов технических измерений и т.п. мы часто сталкиваемся с явлениями, многократно повторяющимися в неизменных условиях. При этом несмотря на постоянство основного комплекса условий результаты опытов отличаются друг от друга, т.е. они испытывают случайное рассеяние. Классическим примером может служить измерение какой-либо величины (например, массы дерева). Если даже исключить систематические погрешности, то все равно окажется, что на результаты опытов будут влиять различные факторы, не поддающиеся контролю. К таковым можно отнести случайные вибрации частей прибора, физиологические изменения в организме, изменения внешней среды.

Хотя результат отдельного измерения при наличии рассеяния невозможно предсказать, это еще не означает, что повторные измерения не обнаруживают никакой закономерности. Установление таких закономерностей, которым подчинены массовые случайные явления как раз и основано на изучении методами математической статистики результатов наблюдений - статистических данных.

  • первая задача математической статистики - указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

  • вторая задача математической статистики - разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:

  • оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости между величинами, каждая из которых испытывает вариации под действием случайных факторов (этот раздел носит название теории корреляции);

  • проверка статистических гипотез о виде неизвестного распределения и о величине параметров распределения;

  • задачи анализа влияния различных факторов на поведение интересующей нас величины рассматриваются в дисперсионном анализе.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает другие задачи, связанные с принятием решений в условиях неопределенности.

Итак, основная задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.

1.2.Генеральная и выборочная совокупности.

Пусть мы располагаем каким-то статистическим материалом, например, результатами испытаний плотности древесины. Эти данные представляют интерес для оценки конкретной партии образцов. Если мы на основе этой информации пожелаем сделать выводы относительно более широкого круга явлений - в этом случае могут возникать статистические проблемы. Надо иметь ввиду, что выводы и оценки, основанные на ограниченном материале наблюдений, отражают случайный состав нашей пробной группы и поэтому должны считаться приближенными оценками вероятностного характера. Теория математической статистики указывает, однако, во многих случаях, как наилучшим способом использовать имеющуюся у нас информацию для получения более точных и надежных характеристик, указывая при этом степень надежности наших выводов, объясняющаяся ограниченностью запаса сведений. Возможность такого рода оценок и придает научную ценность нашим заключениям.

Как уже отмечалось, на практике приходится иметь дело с ограниченным числом объектов, т.к. сплошное обследование (исследуется каждый объект) не имеет смысла если связано с большими материальными затратами или с уничтожением объекта. В этих случаях из всей совокупности случайно отбирают ограниченное число объектов и подвергают их изучению.

Выборочной совокупностью или просто выборкой называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность объектов, из которых производится выборка.

Объемом совокупности называют число объектов этой совокупности.

Например, исследуется надежность партии лесных машин объемом 1000 шт. Для обследования отобрано 100 машин. В этом случае объем Генеральной совокупности = 1000, объем выборки = 100.

1.3.Способы отбора

При составлении выборки можно поступать 2 способами: после того как объект отобран и над ним произведено наблюдение он может быть возвращен в генеральную совокупность (повторная выборка) или не возвращен (бесповторная выборка).

На практике обычно используется бесповторный случайный отбор.

Чтобы по данным выборки можно было уверенно судить об интересующем признаке генеральной совокупности, необходимо чтобы объекты выборки ее правильно представляли, т.е. выборка должна правильно представлять пропорции генеральной совокупности. Другими словами выборка д.б. репрезентативной (представительной).

В силу закона больших чисел можно утверждать , что выборка будет репрезентативной, если ее осуществить случайно ( при условии, что все объекты имеют одинаковую вероятность попасть в выборку).

На практике применяют различные способы отбора:

  1. Отбор, не требующий деления генеральной совокупности на части

  • простой случайный бесповторный отбор;

  • простой случайный повторный отбор;

  1. Отбор, при котором генеральная совокупность разбивается на части:

  • типический отбор;

  • механический отбор;

  • серийный отбор.

Простым случайным (бесповторным, повторным) называют отбор, при котором объекты извлекаются по одному из генеральной совокупности. При большом объеме генеральной совокупности используют таблицы “случайных чисел” или датчик “случайных чисел”.

Типическим называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее типической части. Например, проба на механические свойства древесины производится не из всей совокупности древесины, а отдельно по районам произрастания.

Механическим называется отбор, при котором генеральную совокупность “механически” делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 10% изготовленных станком деталей, то отбирают каждую 10 деталь. Следует указать, что механический отбор иногда не может обеспечить репрезентативности выборки.

Серийным называется отбор, при котором объекты отбираются из генеральной совокупности не по одному, а сериями, которые подвергаются сплошному обследованию. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.

На практике часто применяется комбинированный отбор.

  1. Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка, причем x1 наблюдалось n1 раз, x2 - n2 раз, xk - nk и ni = n объем выборки.

Наблюдаемые значения ni называют вариантами, а последовательность вариант, записанных в возрастающем порядке - вариационным рядом. Числа наблюдений называются частотами, а их отношения к объему выборки ni/n = w - относительными частотами.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал.

Пример: задано распределение частот выборки объема n = 20

xi 2 4 5

ni 3 10 6

Найти относительные частоты. Сумма относительных частот д.б. равна 1.

ЛЕКЦИЯ 2.

1.5. Эмпирическая функция распределения

Пусть известно статистическое распределение частот количественного признака X (например, запас древостоя на гектар).

Обозначим:

  • nx - число наблюдений, при которых наблюдалось значение признака, меньшее x;

  • n - объем выборки.

Относительная частота события когда X < x равна nx/n. Если будет изменяться x, то будет изменяться и относительная частота, т.е. относительная частота nx/n есть функция от x. Т.к. эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения называют функцию F*(x), опрделяющую для каждого значения x относительную частоту события X < x, т.е.

F*(x) = nx/n,

где nx - число вариант, меньших x,

n - объем выборки.

Таким образом, чтобы найти F*(x3), надо число вариант меньших x3, разделить на объем выборки F*(x3) = nx3/n.

В отличие от эмпирической функции распределения выборки функцию распределения F(x) генеральной совокупности называют теоретической функцией распределения. Различие между теоретической и эмпирической функциями состоит в том, что теоретическая функция распределения F(x) определяет вероятность события X < x, а эмпирическая функция F*(x) определяет относительную частоту этого же события. При больших числах n относительная частота события X < x, т.е. F*(x) стремится по вероятности к вероятности F(x)

lim P [F(x) - F*(x)< ] = 1 (>0)

n

Отсюда следует целесообразность использования эмпирической функции распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности.

Этот вывод подтверждается тем, что F*(x) обладает всеми свойствами F(x), из определения функции F*(x) вытекают следующие свойства:

  1. Значения эмпирической функции принадлежат отрезку [0;1]

  2. F*(x) - это неубывающая функция

  3. Если x1 - наименьшая варианта, то F*(x) = 0 при x < x1; если xk - наибольшая варианта, то F*(x) = 1 при x > xk.

Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример.

Построить эмпирическую функцию по данному распределению выборки:

варианты xi 2 6 10

частоты ni 12 18 30

Решение. Найдем объем выборки: 12+18+30=60. Наименьшая варианта = 2, отсюда следует F*(x) = 0 при x < 2. Значения X < 6, а

именно x1 = 2, наблюдалось 12 раз,

следовательно, F*(x) = 12/60 = 0.2

Значения X < 10, а

именно, x1 = 2 и x2 = 6,

наблюдалось 12+18=30 раз,

следовательно, F*(x) = 30/60 = 0.5

Так как x = 10 наибольшая варианта, то F*(x) = 1 при x > 10/

Искомая эмпирическая функция

0 при x < 2

0.2 при 2 x < 6

F*(x) =

 0.5 при 6 x < 10

1 при 10 x

  1. Полигон и гистограмма

Для наглядного представления строят различные графики статистического распределения - в частности, полигон и гистограмму.

Полигоном частот называют ломаную, отрезки которой соединяют точки (x1;n1), (x2;n2), ... , (xk;nk). Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат - соответствующие им частоты ni. Точки (xi;ni) соединяют прямыми отрезками и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки которой соединяют точки (x1;W1), (x2;W2), ... , (xk;Wk). Для построения полигона относительных частот на оси абсцисс откладывают варианты xi, а на оси ординат - соответствующие им относительные частоты ni. Точки (xi;Wi) соединяют прямыми отрезками и получают полигон

относительных частот.

На рисунке изображен полигон относительных частот следующего распределения

X

2

4

6

8

W

0.1

0.2

0.4

0.3

В случае непрерывного признака целесообразно строить гистограмму, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала ni - сумму частот вариант, попавших в i-й интервал.

ni/h

7

6

5

4

3

2

1

5 10 15 20 25 30 35 40 x

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высоты равны отношению ni/h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni/h.

Площадь i-го частичного прямоугольника равна hni/h = ni - сумме частот вариант i-го интервала; т.е. площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

На рис. изображена гистограмма частот распределения объема n = 100

Частичный интервал длиной h = 5

Сумма частот вариант частичного интервала ni

Плотность частоты ni/h

5 - 10

4

0.8

10 - 15

6

1.2

15 - 20

16

3.2

20 - 25

36

7.2

25 - 30

24

4.8

30 - 35

10

2.0

35 - 40

4

0.8

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высоты равны отношению Wi/h (плотность относительной частоты).

Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии Wi/h.

Площадь i-го частичного прямоугольника равна hWi/h = Wi - относительной частоте вариант, попавших в i-й интервал; Следовательно площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

2.Статистические оценки параметров распределения

Допустим, что мы имеем статистические данные по какой-либо представительной выборке. Например, данные по наработке на отказ технологического оборудования лесной машины. Первая задача статистического анализа заключается в том, чтобы по ряду теоретических соображений выдвинуть и проверить статистическую гипотезу, какому именно распределению соответствуют данные нашей выборки. Как правило, гипотеза выдвигается на основании графического представления данных выборки и затем, с помощью критериев согласия (хи-квадрат, Колмогорова-Смирнова и т.д.), производится проверка соответствия наших данных теоретическому распределению (нормальному, лог.нормальному, Пуассона и т.д.). Существуют специализированные пакеты прикладных программ, например Statgraph, позволяющие автоматически установить какое именно распределение имеет количественный признак.

Естественно, возникает вторая задача - оценки параметров, которыми определяется это распределение. Например, если известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание и среднее квадратическое отклонение, т.к. эти два параметра полностью определяют нормальное распределение; если есть основания считать, что признак имеет, например, распределение Пуассона, то необходимо оценить параметр , которым это распределение определяется.

Обычно в распоряжении исследователя имеются значения количественного признака x1, x2, ... xn, полученные в результате n наблюдений (наблюдения предполагаются независимыми). Рассматривая x1, x2, ... xn как независимые случайные величины можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения - это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра. Например, для оценки математическое ожидания нормального распределения служит функция

X = (x1 + x2 +...+xn)/n.

Таким образом, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Для того, чтобы статистические оценки давали достаточно “хорошие” приближения оцениваемых параметров, они должны удовлетворять определенным требованиям. Пусть Q* статистическая оценка неизвестного параметра Q теоретического распределения. Допустим, что по выборке объема n найдена оценка Q1*. Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным найдем оценку Q2*. Повторяя опыт многократно, получим оценки Q1*, Q2*, ... Qn*, которые различны между собой. Итак оценку Q* можно рассматривать как случайную величину, а числа Q1*, Q2*, ... Qn* - как ее возможные значения.

Если оценка Q* дает приближенное значение Q с избытком, тогда каждое найденное по данным выборок число Qi* больше истинного значения Q. В этом случае и математическое ожидание случайной величины Q* больше, чем Q, т.е. М(Q*) > Q. Если Q* дает оценку с недостатком, то М(Q*) < Q.

Итак, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематической (одного знака) ошибке. По этой причине логично потребовать равенства математическое ожидание оценки Q* оцениваемому параметру. Конечно, это не устранит ошибок (одни значения Q* больше, а другие меньше Q), однако ошибки разных знаков будут встречаться одинаково часто. Т.е. соблюдение правила М(Q*) = Q гарантирует от получения систематических ошибок.

Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т.е.

М(Q*) = Q.

Смещенной .............. не равно ..............

Однако несмещенная оценка не всегда гарантирует хорошее приближение оцениваемого параметра. Другим важным фактором, определяющим наиболее близкое приближение оценки к оцениваемому параметру по данным одной выборки, например, Q1* является степень рассеяния (дисперсия). Если потребовать чтобы дисперсия Q* была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффективности. (Пример)

Эффективной называют статистическую оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при n   стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n   стремится к нулю, то такая оценка оказывается и состоятельной.

Генеральной средней xГ называют среднее арифметическое значений признака генеральной совокупности. Если все значения x1, x2,..., xN признака генеральной совокупности объема N различны, то

xГ = (x1  + x2  + ... + xN )/N.

Если же значения признака x1, x2,..., xk имеют соответственно частоты N1, N2,... Nk, причем N1  + N2  +... + Nk = N, то

xГ = (x1N1  + x2N2 + ... + xkNk )/N,

т.е. генеральная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Пусть для изучения генеральной совокупности относительно количественного признака X извлечена выборка объема n.

Выборочной средней xв называют среднее арифметическое значение признака выборочной совокупности. Если все значения x1, x2, ... , xn признака выборки объема n различны, то

xв = (x1  + x2  + ... + xn)/n.

Если же значения признака x1, x2, ... , xn имеют соответственно

частоты n1, n2,..., nk, причем n1 + n2 + ... + nk = n, то

xв = (x1n1  + x2n2 + ... + xknk )/n,

т.е. выборочная средняя есть средняя взвешенная значений признака

с весами, равными соответствующим частотам.

4.Проверка статистических гипотез

Статистической называют гипотезу о виде неизвестного распределения, или о параметрах известных распределений.

Нулевой называют выдвинутую гипотезу H0, альтернативной H1 называют гипотезу, которая противоречит нулевой.

В итоге статистической проверки выдвинутой гипотезы в двух случаях может быть принято неправильное решение. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Статистическим критерием называют случайную величину Х, которая служит для проверки нулевой гипотезы.

Рассмотрим пример проверки статистической гипотезы по критерию хи-квадрат, приведенный в 8 л/р “Определение неизвестного закона распределения”

  1. Имеем выборку - 50 значений экспериментальных данных (например, замеры диаметров сосен, одного возраста, произрастающих в одинаковых условиях). Замечание - если используется критерий Пирсона, то необходимо иметь выборку > 100 значений.

  2. С помощью

Вопросы ПО КУРСУ «Математические методы и модели»

  1. Основные понятия. Классификация моделей. Примеры

  2. Классификация математических моделей. Примеры

  3. Решение нелинейных уравнений. Отделение корней. Графический и графоаналитический метод. (лабораторная работа №2) Решение нелинейных уравнений с помощью встроенной функции root(f(x),x))

  4. Решение нелинейных уравнений. Метод половинного деления.

  5. Решение нелинейных уравнений. Метод хорд

  6. Решение нелинейных уравнений. Метод касательных.

  7. Решение систем линейных алгебраических уравнений. Метод Крамера. Метод обратной матрицы. Решающие блоки MathCAD (лабораторная работа №2)

  8. Численное интегрирование. Формула прямоугольников.

  9. Численное интегрирование. Формула трапеций.

  10. Численное интегрирование. Метод Монте-Карло.

  11. Приближение функций, основные понятия и определения.

  12. Приближение функций, метод наименьших квадратов (лабораторная работа №3)

  13. Численное дифференцирование. Основные понятия, геометрическая интерпретация. Вторая производная. Метод Эйлера

  14. Численное дифференцирование. Задача Коши. Численное дифференцирование с использованием формулы Тейлора(лабораторная работа №4)

  15. Численное дифференцирование. Метод Эйлера-Коши(лабораторная работа №4)

  16. Понятие об оптимизации. Метод половинного деления(лабораторная работа №5)

  17. Понятие об оптимизации. Метод золотого сечения(лабораторная работа №5)

  18. Понятие об оптимизации. Метод Фибоначчи(лабораторная работа №5)

  1. Предмет и задачи математической статистики.

Генеральная и выборочная совокупности. Способы отбора

  1. Статистическое распределение выборки. Примеры.

  2. Эмпирическая функция распределения. Примеры

  3. Полигон и гистограмма Примеры

  4. Статистические оценки параметров распределения

  5. Проверка статистических гипотез (по Л/р 7)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]