- •Министерство образования и науки российской федерации
- •Раздел I. Теория вероятностей
- •Тема 1. Случайные события
- •1.1 Классификация событий
- •1.2. Вероятность событий
- •Свойства вероятности
- •1.3. Элементы комбинаторики
- •1.4. Операции над событиями
- •Тема 2. Основные теоремы
- •2.1. Теорема сложения вероятностей несовместных событий
- •2.2. Теорема умножения вероятностей
- •2.3. Формула полной вероятности. Формулы Байеса
- •Тема 3. Повторные независимые испытания
- •3.1. Формула Бернулли
- •3.2. Формула Пуассона
- •3.3. Локальная теорема Муавра-Лапласа
- •Свойста функци , ее график
- •3.4. Интегральная теорема Муавра-Лапласа
- •Свойства функции :
- •Тема 4. Дискретная случайная величина и её характеристики
- •4.1. Понятие случайной величины
- •4.2. Закон распределения дискретной случайной величины
- •4.3. Математические операции над случайными величинами
- •4.4. Числовые характеристики дискретной случайной величины
- •Свойства
- •Свойства
- •4.5. Биноминальный закон распределения и закон Пуассона
- •4.6. Функция распределения случайной величины
- •Свойства функции распределения
- •Тема 5. Непрерывные случайные величины.
- •5.1. Плотность распределения вероятностей непрерывных случайных величин
- •Свойства плотности распределения
- •5.2. Числовые характеристики непрерывных случайных величин
- •5.3. Нормальный закон распределения
- •Свойства случайной величины, распределенной по нормальному закону
- •5.4. Центральная предельная теорема. Теорема Ляпунова
- •Тема 6. Двумерные (n-мерные) случайные величины
- •6.1. Способы задания двумерной случайной величины
- •Свойства двумерной функции распределения
- •6.2. Условные законы распределения
- •6.3. Ковариация и коэффициент корреляции
- •Свойства коэффициента корреляции
- •6.4. Двумерный нормальный закон распределения
- •Тема 7. Закон больших чисел
- •Неравенство Маркова (лемма Чебышева)
- •Неравенство Чебышева
- •Теорема Чебышева
- •Раздел II. Математическая статистика Тема 8. Выборочный метод. Общие вопросы
- •8.1. Понятие о вариационных рядах
- •8.2. Эмпирическая функция распределения
- •Свойства :
- •8.3. Числовые характеристики вариационного ряда
- •Основные свойства
- •Основные свойства дисперсии
- •Упрощённый способ расчёта средней арифметической и дисперсии
- •8.4. Выборочный метод
- •Тема 9. Оценка доли признака и генеральной средней
- •Точечные оценки генеральной совокупности. Свойства оценок
- •Интервальная оценка параметров
- •Доверительный интервал для генеральной средней и генеральной доли по большим выборкам
- •Объём выборки
- •Тема 10. Статистическая проверка гипотез
- •10.1. Статистическая гипотеза и общая схема её проверки
- •1) - То нулевую гипотезуотвергают,
- •2) - То нет оснований отвергнуть.
- •10.2. Построение теоретического закона распределения по опытным данным. Критерий согласия Пирсона
- •Правило проверки нулевой гипотезы
- •Тема 11. Корреляция и регрессия
- •11.1. Линейная парная регрессия
- •11.2. Оценка тесноты корреляционной зависимости
- •Свойства выборочного коэффициента корреляции r
- •Проверка значимости выборочного коэффициента корреляции
Тема 11. Корреляция и регрессия
Пусть нам требуется установить и оценить зависимость между случайными величинами и. Они могут быть связаны либо функциональной зависимостью, либо статистической, либо быть независимыми.
Например, между радиусом круга и его площадьюсуществуетфункциональная зависимость. Однако на практике чаще всего встречаются зависимые друг от друга переменные величины, но при этом каждой из них не соответствует определённое значение другой. Например, связь между количеством осадков и урожайностью имеется. Однако известно, что количество осадков однозначно не определяет урожайность. Это объясняется тем, что на урожайность влияет много других факторов. В результате каждому значению одной величины соответствует несколько значений другой величины. Связи такого типа называютсястатистическими.
В частности, если при изменении одной из величин изменяется среднее значение другой, то такая зависимость называется корреляционной. Основная задача теории корреляции – выявление связи между случайными переменными и оценка её тесноты.
11.1. Линейная парная регрессия
Пусть в результате испытания получены значения случайных величин ХиY. Экспериментальные данные удобно задавать в видекорреляционной таблицы, в которой в первом столбце представлены значения с.в.Х, а в первой строке – значения с.в.Y; числа, стоящие на пересечении строк и столбцов, показывают сколько раз наблюдалась одна и та же пара чисел (xi, yj).
Рассмотрим таблицу распределения пробега автомобиля Y(вкм.) от количества израсходованного бензинаХ(вл.).
251 |
265 |
279 |
293 |
307 |
321 | ||
25 |
9 |
4 |
1 |
- |
- |
- |
14 |
27 |
1 |
10 |
9 |
3 |
- |
- |
23 |
29 |
- |
2 |
6 |
14 |
6 |
- |
28 |
31 |
- |
- |
1 |
10 |
18 |
6 |
35 |
10 |
16 |
17 |
27 |
24 |
6 |
В данной таблице, например, число 3 показывает, что пара (27, 293) наблюдалась три раза, т.е. 3 автомобиля израсходовали 27 л. бензина и при этом их пробег составил 293км. Прочерк ” - ” означает, что пара не наблюдалась. В последней строке (столбце) указана сумма чисел, расположенных во внутренних клетках по столбцам (строкам).
Символами будем обозначать числа во внутренних клетках,- количество (частота) автомобилей израсходовавшихл. бензина, - количество (частота) автомобилей, пробег которых составляеткм.
В нижнем правом углу указана сумма всех частот .
Замечание. В случае интервального статистического распределения с.в.ив качестве,выбирают середины интервалов;,- частоты попадания случайной величины в данные интервалы.
Корреляционная таблица показывает, что с увеличением объема израсходованного бензина Хпробег автомобиляимеет тенденцию к повышению. Для более точного рассмотрения этой закономерности рассмотримгрупповые средние:
и .
Вычислим групповые средние для нашего распределения.
.
Результаты вычислений поместим в таблице:
-
у
251
265
279
293
307
321
25,2
26,75
27,82
29,52
30,5
31
Результаты вычислений поместим в таблице:
-
х
25
27
29
31
257
273,52
291
304,6
На рис. 11.1 построим графики ломаных, соединив точки с координатами и.
Определение. Эмпирической линией регрессии поназывается ломаная, соединяющая точки с координатами.Эмпирической линией регрессии поназывается ломаная, соединяющая точки с координатами.
По виду ломаных (рис. 11.1) можно предположить наличие линейной корреляционной зависимости по(ломаная 1) ипо(ломаная 2) между рассматриваемыми переменными.
Поставим задачу найти уравнения этих линий называемые теоретическими линиями регрессии.
Будем искать уравнение регрессии пов виде
. (11.1)
Неизвестные параметры ивыберем таким образом, чтобы сумма квадратов отклонений эмпирических групповых среднихот значений, найденных по уравнению (11.1), была минимальной.
Исследуем функциюна минимум.
Т.к. функция является функцией двух переменных, то необходимым условием существования экстремума является равенство нулю частных производных:
.
Вычислим частные производные и приравняем их нулю:
Преобразовав и разделив каждое уравнение системы на n, получим
систему нормальных уравнений:
где ,,,.
Решив эту систему, найдем искомые параметры:
, .
Определение.Угловой коэффициентпрямой линии регрессиипоназываюткоэффициентомрегрессиипои обозначают:
.
Числитель :- называетсявыборочной ковариацией.
Знаменатель :- называетсявыборочной дисперсией.
Т.о. теоретическая линия регрессии поимеет вид:. (11.2)