- •Лекции по дисциплине курса «Теория вероятностей и математическая статистика»
- •Часть II
- •Введение
- •1. Закон больших чисел
- •1.2. Неравенства чебышева
- •1.3. Сходимость по вероятности
- •1.4.Теоремы чебышева
- •1.4.1.Первая теорема Чебышева.
- •1.4.2. Вторая теорема Чебышева:
- •1.5. Теорема бернулли
- •1.6. Центральная предельная теорема
- •1.7. Предельные теоремы
- •1.7.1. Локальная теорема Муавра-Лапласа.
- •1.7.2. Интегральная теорема Муавра-Лапласа.
- •2. Базовые понятия математической статистики
- •2.1. Эмпирическая функция распределения
- •2.2. Гистограмма
- •2.3. Оценки параметров распределения и их свойства
- •2.4. Оценки моментов и квантилей распределения
- •2.5. Точечная оценка параметров распределения
- •2.5.1. Сущность задачи точечного оценивания параметров
- •2.5.2. Метод максимального правдоподобия
- •2.5.3. Метод моментов
- •2.5.4. Метод квантилей
- •3. Проверка статистических гипотез
- •3.1. Сущность задачи проверки статистических гипотез
- •3.2. Типовые распределения
- •3.2.1. Нормальное распределение
- •3.2.2. Распределение χ2 (хи-квадрат)
- •3.2.3. Распределение Стьюдента
- •3.3.4. Распределение Фишера
- •3.3. Проверка гипотез о законе распределения
- •3.3.1. Критерий хи-квадрат к. Пирсона
- •3.3.2. Критерий а.Н. Колмогорова
- •3.3.3. Критерий р. Мизеса
- •4. Интервальная оценка параметров распределения
- •4.1. Сущность задачи интервального оценивания параметров
- •4.2. Общий метод построения доверительных интервалов
- •4.3. Доверительный интервал для математического ожидания
- •4.4. Доверительный интервал для дисперсии
- •4.5. Доверительный интервал для вероятности
- •5. Аппроксимация закона распределения экспериментальных данных
- •5.1. Задачи аппроксимации
- •5.2. Аппроксимация на основе типовых распределений
- •6. Обработка однотипных выборок
- •6.1. Однотипные выборки эд и задачи их обработки
- •6.2. Объединение выборок
- •6.2.1. Объединение однородных выборок
- •6.2.2. Объединение неоднородных выборок
- •6.3. Однофакторный дисперсионный анализ
- •6.3.1. Задачи дисперсионного анализа
- •6.3.2. Проверка однородности совокупности дисперсий
- •6.3.3. Сравнение факторной и остаточной дисперсий
- •7. Корреляционный и регрессионный анализ
- •7.1. Матрица данных
- •7.2. Корреляционный анализ
- •7.3. Регрессионный анализ
- •7.3.1. Постановка задачи
- •7.3.2. Выбор вида уравнения регрессии
- •7.3.4. Вычисление коэффициентов уравнения регрессии
5. Аппроксимация закона распределения экспериментальных данных
5.1. Задачи аппроксимации
Конкретное содержание обработки одномерных ЭД зависит от поставленных целей исследования. В простейшем случае достаточно определить первый момент распределения, например, среднее время обработки запросов к распределенной базе данных. В других случаях требуется установить вероятностно-временные характеристики распределения, например, оценить вероятность своевременной обработки запросов или вероятность безотказной работы системы в течение заданного периода времени. Для нахождения таких значений требуется знание закона распределения как наиболее полной характеристики соответствующей случайной величины.
В классической математической статистике предполагается известным вид закона распределения и производится оценка значений его параметров по результатам наблюдений. Но обычно заранее вид закона распределения неизвестен, а теоретические предположения не позволяют его однозначно установить. Обработка ЭД также не позволит точно вычислить истинный закон распределения показателя. В таком случае следует говорить только об аппроксимации (приближенном описании) реального закона некоторым другим, который не противоречит ЭД и в каком-то смысле похож на этот неизвестный истинный закон.
В соответствии с этими положениями постановка задачи аппроксимации закона распределения ЭД формулируется следующим образом.
Имеется выборка наблюдений (x1, x2, …, xn) за случайной величиной Х. Объем выборки п фиксирован.
Необходимо подобрать закон распределения (вид и параметры), который бы в статистическом смысле соответствовал имеющимся наблюдениям.
Ограничения: выборка представительная, ее объем достаточен для оценки параметров и проверки согласованности выбранного закона распределения и ЭД; плотность распределения унимодальная.
Наличие в функции плотности распределения нескольких мод может быть следствием различных причин, например существованием различных по длине маршрутов прохождения запросов в системе обработки. Выборку с несколькими модами разделяют на составные части так, чтобы каждая из них имела одну моду. В последнем случае функция распределения исходной выборки представляет собой взвешенную сумму соответствующих функций отдельных выборок:
,
где s – количество выборок, выбранное исходя из требований унимодальности распределения; pi – вероятность принадлежности элемента выборки к выборке i; Fi(x) – функция распределения выборки i.
Решение поставленной задачи аппроксимации осуществляется на основе применения "типовых" распределений, специальных рядов или семейств универсальных распределений.
5.2. Аппроксимация на основе типовых распределений
Задача аппроксимации на основе типовых распределений решается итерационно и включает выполнение трех основных шагов:
предварительного выбора вида закона распределения;
определения оценок параметров закона распределения;
оценки согласованности закона распределения и ЭД.
Если заданный уровень согласованности достигнут, то задача считается решенной, а если нет, то шаги повторяются снова, начиная с первого шага, на котором выбирается другой вид закона, или начиная со второго – путем некоторого уточнения параметров распределения.
Выбор вида закона распределения осуществляется посредством анализа гистограммы распределения, оценок коэффициентов асимметрии и эксцесса. По степени "похожести" гистограммы и графиков плотностей распределения типовых законов или по "близости" значений оценок коэффициентов и диапазонов их теоретических значений выбираются распределения – кандидаты для последующей оценки параметров. На рис. 4.1 – 4.4 представлены графики типовых функций плотностей распределения, часто применяемых в задачах аппроксимации ЭД, а в табл. 4.1 приведены функции плотности и теоретические параметры этих распределений.
Следует отметить, что гамма-распределение соответствует распределению Эрланга, если l – целое, и экспоненциальному распределению при n = 1.
После выбора подходящего вида распределения производится оценка его параметров, используя методы максимального правдоподобия, моментов или квантилей. В целях упрощения решения задачи в табл. 4.2 приведены расчетные формулы для вычисления оценок параметров типовых распределений.
Применительно к выбранному закону распределения производится проверка гипотезы о том, что имеющаяся выборка может принадлежать этому закону. Если гипотеза не отвергается, то можно считать, что задача аппроксимации решена. Если гипотеза отвергается, то возможны следующие действия: изменения значений оценок параметров распределения; выбор другого вида закона распределения; продолжение наблюдений и пополнение выборки. Конечно, такой подход не гарантирует нахождение "истинного" или даже подбора подходящего закона распределения
Преимущество применения типовых законов распределения состоит в их хорошей изученности и возможности получения состоятельных, несмещенных и относительно высоко эффективных оценок параметров. Однако рассмотренные выше типовые законы распределения не обладают необходимым разнообразием форм, поэтому их применение не дает необходимой общности представления случайных величин, которые встречаются при исследовании систем.
Таблица 5.1
Тип функции плотности распределения |
Математическое ожидание m1, дисперсия 2, эксцесс |
Нормальное
|
mx=m 2=2 |
Логарифмическое нормальное
|
|
Экспоненциальное
|
|
Вейбулла
d>0, b>0 |
|
Гамма
n>0, >0 |
|
Таблица 5.2
Тип распределения |
Оценка параметров распределения по выборочным данным |
нормальное |
|
Логарифмическое нормальное |
|
Экспоненциальное |
|
Вейбулла |
|
Гамма |
где q=ln(m1/) |