Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции ТВ и МС.DOC
Скачиваний:
44
Добавлен:
24.03.2016
Размер:
5.88 Mб
Скачать

Тема 11. Корреляция и регрессия

Пусть нам требуется установить и оценить зависимость между случайными величинами и. Они могут быть связаны либо функциональной зависимостью, либо статистической, либо быть независимыми.

Например, между радиусом круга и его площадьюсуществуетфункциональная зависимость. Однако на практике чаще всего встречаются зависимые друг от друга переменные величины, но при этом каждой из них не соответствует определённое значение другой. Например, связь между количеством осадков и урожайностью имеется. Однако известно, что количество осадков однозначно не определяет урожайность. Это объясняется тем, что на урожайность влияет много других факторов. В результате каждому значению одной величины соответствует несколько значений другой величины. Связи такого типа называютсястатистическими.

В частности, если при изменении одной из величин изменяется среднее значение другой, то такая зависимость называется корреляционной. Основная задача теории корреляции – выявление связи между случайными переменными и оценка её тесноты.

11.1. Линейная парная регрессия

Пусть в результате испытания получены значения случайных величин ХиY. Экспериментальные данные удобно задавать в видекорреляционной таблицы, в которой в первом столбце представлены значения с.в.Х, а в первой строке – значения с.в.Y; числа, стоящие на пересечении строк и столбцов, показывают сколько раз наблюдалась одна и та же пара чисел (xi, yj).

Рассмотрим таблицу распределения пробега автомобиля Yкм.) от количества израсходованного бензинаХл.).

251

265

279

293

307

321

25

9

4

1

-

-

-

14

27

1

10

9

3

-

-

23

29

-

2

6

14

6

-

28

31

-

-

1

10

18

6

35

10

16

17

27

24

6

В данной таблице, например, число 3 показывает, что пара (27, 293) наблюдалась три раза, т.е. 3 автомобиля израсходовали 27 л. бензина и при этом их пробег составил 293км. Прочерк ” - ” означает, что пара не наблюдалась. В последней строке (столбце) указана сумма чисел, расположенных во внутренних клетках по столбцам (строкам).

Символами будем обозначать числа во внутренних клетках,- количество (частота) автомобилей израсходовавшихл. бензина, - количество (частота) автомобилей, пробег которых составляеткм.

В нижнем правом углу указана сумма всех частот .

Замечание. В случае интервального статистического распределения с.в.ив качестве,выбирают середины интервалов;,- частоты попадания случайной величины в данные интервалы.

Корреляционная таблица показывает, что с увеличением объема израсходованного бензина Хпробег автомобиляимеет тенденцию к повышению. Для более точного рассмотрения этой закономерности рассмотримгрупповые средние:

и .

Вычислим групповые средние для нашего распределения.

.

Результаты вычислений поместим в таблице:

у

251

265

279

293

307

321

25,2

26,75

27,82

29,52

30,5

31

Результаты вычислений поместим в таблице:

х

25

27

29

31

257

273,52

291

304,6

На рис. 11.1 построим графики ломаных, соединив точки с координатами и.

Определение. Эмпирической линией регрессии поназывается ломаная, соединяющая точки с координатами.Эмпирической линией регрессии поназывается ломаная, соединяющая точки с координатами.

По виду ломаных (рис. 11.1) можно предположить наличие линейной корреляционной зависимости по(ломаная 1) ипо(ломаная 2) между рассматриваемыми переменными.

Поставим задачу найти уравнения этих линий называемые теоретическими линиями регрессии.

Будем искать уравнение регрессии пов виде

. (11.1)

Неизвестные параметры ивыберем таким образом, чтобы сумма квадратов отклонений эмпирических групповых среднихот значений, найденных по уравнению (11.1), была минимальной.

Исследуем функциюна минимум.

Т.к. функция является функцией двух переменных, то необходимым условием существования экстремума является равенство нулю частных производных:

.

Вычислим частные производные и приравняем их нулю:

Преобразовав и разделив каждое уравнение системы на n, получим

систему нормальных уравнений:

где ,,,.

Решив эту систему, найдем искомые параметры:

, .

Определение.Угловой коэффициентпрямой линии регрессиипоназываюткоэффициентомрегрессиипои обозначают:

.

Числитель :- называетсявыборочной ковариацией.

Знаменатель :- называетсявыборочной дисперсией.

Т.о. теоретическая линия регрессии поимеет вид:. (11.2)