Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздел 11.doc
Скачиваний:
7
Добавлен:
29.08.2019
Размер:
823.3 Кб
Скачать

Регрессионный и корреляционный анализ

Часто можно установить определенную связь между вариациями по различным признакам. Например, чем больше размер животного, тем обычно больше его вес. Кроме того, известно, что в однородном стаде те коровы, в молоке которых больший процент жира, дают обычно меньший удой. Здесь связь не функциональная, а каждому значению одной величины соответствует множество возможных значений другой величины. Такого рода зависимость называют корреляционной.

Две случайные величины X и Y находятся в корреляционной зависимости, если каждому значению любой из этих величин соответствует определенное распределение вероятностей другой величины.

Условным математическим ожиданием (УМО) дискретной случайной величины Х называется сумма произведений возможных значений величины Х на их условные вероятности: , где - условная вероятность равенства , при условии, что

Для непрерывных величин:

где - плотность вероятности непрерывной с. в. Х при условии

УМО есть функция от y: которую называют функцией регрессии величины Х от величины Y. Аналогично определяется УМО случайной величины Y и функция регрессии Y на Х:

Уравнение называется уравнением регрессии Х на Y (Y на Х), а линия на плоскости, соответствующая этому уравнению, называется линией регрессии. Линия регрессии Y на Х (Х на Y) показывает, как в среднем зависит Y от Х (Х от Y).

Если Х, Y – независимые случайные величины, то математическое ожидание их произведения равно произведению их математических ожиданий M(XY)=M(X) M(Y), в противном случае – равенство не соблюдается.

Коэффициентом корреляции двух случайных величин Х и Y называют безразмерную величину:

,

характеризующую «меру связи» этих случайных величин. Легко видно, что выполняется соотношение: , поэтому в короткой записи:

Корреляционная зависимость между случайными величинами Х и Y называется линейной корреляцией, если обе функции регрессии f(y) и g(x) являются линейными. В этом случае обе линии регрессии являются прямыми, они называются прямыми регрессии.

Свойства коэффициента корреляции:

  1. Если X, Y - независимые случайные величины, то коэффициент корреляции равен 0, r=0 (нет линейной корреляции между Х и Y).

  2. Величина коэффициента корреляции по модулю не превосходит 1: (примем без доказательства). В частности, если то между случайными величинами Х и Y имеет место функциональная (линейная) зависимость.

  3. Если <1, , то между Х и Y существует корреляционная зависимость. При этом, чем «теснее» связь между Х иY, тем ближе к 1.

Задача: Для десяти молодых сосен были произведены измерения общей длины ствола (Х, см) и длины его части без ветвей (Y, см). Результаты измерений представлены в таблице:

Х

25

35

45

55

65

75

85

95

105

115

Y

14

18

19

20

23

23

24

26

29

34

Вычислить выборочный коэффициент корреляции и найти выборочное уравнение прямой регрессии Y на Х.

Выборочный коэффициент корреляции вычисляется по формуле:

.

Для вычисления величин, входящих в формулу, составим вспомогательную таблицу, в которой результаты измерений, а также необходимые промежуточные значения, записаны столбцами:

xi

yi

(

25

14

–45

2025

–9

81

405

35

18

–35

1225

–5

25

175

45

19

–25

625

–4

16

100

55

20

–15

225

–3

9

45

65

23

–5

25

0

0

0

75

23

5

25

0

0

0

85

24

15

225

1

1

15

95

26

25

625

3

9

75

105

29

35

1225

6

36

210

115

34

45

2025

11

121

495

700

230

0

8250

0

298

1520

В последней строке таблицы указаны суммы по столбцам.

1) Рассчитаем средневыборочные:

2).Рассчитаем исправленные дисперсии:

Откуда исправленные среднеквадратические:

3). Рассчитаем выборочное значение коэффициента корреляции:

Таким образом: у обследованных сосен имеет место сильная прямая корреляция между общей длиной ствола и длиной его части без ветвей.

4). Найдем выборочное уравнение прямой регрессии Y на Х. Это уравнение имеет вид: За приближенные значения принимают, соответственно: Подставляя в выборочное уравнение прямой регрессии Y на Х, получим: или Окончательно: - искомое уравнение прямой регрессии Y на Х.