Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

m29668_3

.doc
Скачиваний:
7
Добавлен:
13.11.2022
Размер:
1.05 Mб
Скачать

Тема 3.

КОРРЕЛЯЦИЯ И РЕГРЕССИЯ.

В живой природе связь между признаками проявляется таким образом, что каждому значению одного признака соответствует распределение другой. Такая связь называется статистической. В частном случае, когда каждому значению одного признака соответствует какая-либо числовая характеристика соответствующего распределения другой, то такая зависимость называется корреляционной. Например, корреляционными являются связи между ростом человека и его массой, длиной туши свиньи и толщиной шпика и т.п.

Допустим, что в испытаниях совместно наблюдались значения признака и значения признака . Если каждую пару значений изобразить точкой на координатной плоскости, то совокупность таких точек образует корреляционное поле. Для корреляционной зависимости характерна разная степень тесноты (силы) связи, которая выражается разной структурой корреляционного поля (рис. 3.1).

Рис. 3.1. Примеры корреляционных полей.

Простейшим видом корреляционной зависимости является линейная. На ее наличие указывает сосредоточенность точек корреляционного поля вдоль некоторой гипотетической прямой.

Числовой характеристикой тесноты линейной корреляционной связи между признаками и в статистике служит выборочный коэффициент корреляции , который вычисляется по одной из формул

,

где пары  известные из предыдущих тем выборочные средние и с.к.о. признаков , соответственно, а .

Отметим ниже наиболее важные свойства выборочного коэффициента корреляции.

  1. Значения коэффициента корреляции заключены в пределах от –1 до 1:

.

  1. Чем ближе величина к –1 или к 1, тем более тесной является линейная корреляционная связь между признаками. С приближением к нулю эта связь ослабевает.

Если , то говорят, что признаки не коррелируют, т.е. можно считать, что между ними нет линейной корреляционной связи (это не исключает существования какой-то нелинейной корреляционной зависимости).

Знак коэффициента корреляции указывает на направление связи. Связь прямая ( ), если увеличение одного признака влечет за собой увеличение (в среднем) другого признака. Связь обратная ( ), если увеличение одного признака влечет за собой уменьшение (в среднем) другого признака.

Как и всякий выборочный показатель, коэффициент корреляции имеет свою ошибку репрезентативности

Поскольку величина рассчитывается по вариантам выборки, то спрашивается, насколько правомерно переносить вывод о существовании линейной корреляционной зависимости между признаками с выборочной совокупности на генеральную. Иными словами, возникает вопрос о достоверности коэффициента корреляции. Этот вопрос решается с помощью критерия достоверности

.

По заданному уровню значимости (иначе говоря, по заданной надежности ) с учетом числа степеней свободы с помощью таблицы критических точек распределения Стьюдента (приложение 1) определяют стандартное значение критерия и сравнивают его с эмпирическим значением критерия , делая следующие итоговые выводы:

если , то коэффициент корреляции признают достоверным (статистически значимым);

если , то коэффициент корреляции признается недостоверным.

Анализ формул для и показывает, что при большом объеме выборки даже малый коэффициент корреляции может быть достоверным. В случае выборки небольшого объема достоверным может оказаться лишь такой коэффициент корреляции, абсолютная величина которого близка к 1.

В корреляционно-регрессионном анализе выделяют две основные задачи: о тесноте связи и о форме связи.

Пусть  выборочная средняя по всем вариантам признака , выборочная средняя по всем вариантам признака . Через принято обозначать среднее значение вариант признака , соответствующих заданному значению признака . Эту величину называют условным средним.

Под формой корреляционной связи понимают уравнение (формулу), связывающее значение одного признака (независимой переменной) с условными средними другого признака.

Количественные выводы о том, как изменяется один признак (зависимая переменная) при изменении другого признака (независимой переменной) позволяет сделать уравнение регрессии. Выборочное уравнение прямой линии регрессии на имеет вид

где  выборочный коэффициент регрессии.

Выборочное уравнение прямой регрессии определяет на плоскости прямую линию, проходящую через точку с угловым коэффициентом . Величина показывает, насколько в среднем изменится признак (точнее, насколько изменится ), если значение признака увеличить на 1. Так, например, если при изучении зависимости между живой массой коров-первотелок ( ) и их удоями за нормированную лактацию ( ) оказалось, что величина коэффициента регрессии составляет 6,9, то можно утверждать следующее: при увеличении живой массы коровы на 1 кг следует ожидать увеличение ее удоев за рассматриваемый период в среднем на 6,9 кг.

ПРИМЕР

Рассмотрим зависимость между «ростом» ( ) и массой ( ) некоторых животных:

xi: 31 32 33 34 35 35 40 41 42 46

yi: 7,8 8,3 7,6 9,1 9,6 9,8 11,8 12,1 14,7 13,0.

Требуется:

  1. построить корреляционное поле;

  2. найти коэффициент корреляции и сделать вывод о тесноте и направлении связи;

  3. составить уравнение прямой регрессии и построить прямую регрессии;

  4. оценить достоверность коэффициента корреляции.

РЕШЕНИЕ

Построим корреляционное поле.

Рис. 3.2

Для расчета коэффициента корреляции и коэффициента регрессии по формулам

вычисления удобно располагать в виде таблицы 3.1.

Вычисляем средние:

и заполняем таблицу.

Таблица 3.1

N

xi

yi

1

2

3

4

5

6

7

8

9

10

31

32

33

34

35

35

40

41

42

46

7,8

8,3

7,6

9,1

9,6

9,8

11,8

12,1

14,7

13,0

-5,9

-4,9

-3,9

-2,9

-1,9

-1,9

3,1

4,1

5,1

9,1

34,81

24,01

15,21

8,41

3,61

3,61

9,61

16,81

26,01

82,81

-2,58

-2,08

-2,78

-1,28

-0,78

-0,58

1,42

1,72

4,32

2,62

6,66

4,33

7,73

1,64

0,61

0,34

2,02

2,96

18,66

6,86

15,22

10,19

10,84

3,71

1,48

1,10

4,40

7,05

22,03

23,84

369

103,8

0

224,8

0

51,9

99,9

Подставляя полученные значения в формулу для r, получим

Вывод: между ростом Х и массой Y у данных животных существует тесная положительная линейная корреляционная связь.

Найдем коэффициент регрессии

и подставим его в уравнение прямой регрессии , тогда

или после преобразований

.

Нанесем на корреляционное поле прямую линию регрессии (рис. 3.2).

Оценим достоверность коэффициента корреляции.

1. Найдем ошибку репрезентативности коэффициента корреляции:

2. Вычисляем значение критерия достоверности:

  1. По таблицам критических точек распределения Стьюдента (приложение 1) находим стандартные значения t-критерия с учетом числа степеней свободы и уровней значимости

.

Так как эмпирическое значение критерия больше стандартного для любого из традиционных значений уровня значимости, т.е. выполняется условие , то можно утверждать, что

коэффициент корреляции достоверен. Не только в выборочной, но и в генеральной совокупности между признаками Х и Y существует линейная положительная корреляционная связь.

ВОПРОСЫ ДЛЯ САМОПОВЕРКИ

1.

Что понимают под корреляционной зависимостью? Приведите примеры.

2.

Что такое корреляционное поле?

3.

Что характеризует выборочный коэффициент корреляции? Напишите формулу для его вычисления. Какие значения он может принимать?

4.

Что можно сказать о связи между двумя признаками, если коэффициент корреляции равен нулю? Равен единице?

5.

Какая разница между прямой (r > 0) и обратной (r < 0) корреляцией?

6.

Как вычисляется ошибка репрезентативности коэффициента корреляции?

7.

В чем состоит вопрос о достоверности коэффициента корреляции? Как проводится исследование коэффициента корреляции на достоверность?

8.

Что влияет на достоверность коэффициента корреляции?

9.

Напишите формулу для вычисления коэффициента регрессии. Что характеризует этот коэффициент?

10.

Напишите выборочное уравнение прямой линии регрессии. Как можно построить эту прямую?

ИНДИВИДУАЛЬНЫЕ ЗАДАНИЯ

В каждом задании требуется:

  1. построить корреляционное поле;

  2. найти коэффициент корреляции и сделать вывод о тесноте и направлении связи;

  3. составить уравнение прямой регрессии и построить прямую регрессии;

  4. оценить достоверность коэффициента корреляции.

1. Изучалась зависимость между содержанием жира (X) и белка (Y) в молоке коров джерсейской породы.

хi: 4,5 4,0 4,6 5,0 4,0 4,1 4,5 4,8 4,9 5,2

yi: 3,6 3,2 3,5 3,6 3,3 3,3 3,5 3,6 3,7 3,8.

2. Имеется двухмерная выборка: Х- масса новорожденных павианов- гамадрилов (кг) и Y – масса их матерей (кг).

xi: 0,7 0,73 0,75 0,70 0,65 0,70 0,61 0,70 0,63

yi: 10 10,8 11,3 10 11,1 11,3 10,2 13,5 12.

3. Изучали зависимость между объемом Y (мкм3) и диаметром X (мкм) сухого эритроцита у млекопитающих.

xi: 7,6 8,9 5,5 9,2 3,5 4,8 7,3 7,4 6,8

yi: 87 81 50 112 18 37 71 69 54.

4. Изучали зависимость между количеством гемоглобина в крови (%) Y и массой животных Х (кг).

xi: 17,7 18 18 19 19 20 21 22 30

yi: 74 70 80 72 77 76 89 80 86.

5. Изучали зависимость между массой тела гамадрилов- матерей Х (кг) и их новорожденных детенышей Y (кг).

xi: 10 10,8 11,3 10 10,1 11,1 11,3 10,2 13,5 12,3

yi: 0,7 0,73 0,75 0,7 0,65 0,65 0,7 0,61 0,7 0,63.

6. Изучали зависимость между поверхностью Y (мкм2) и диаметром X (мкм) сухого эритроцита у млекопитающих.

xi: 7,6 8,9 5,5 9,2 3,5 4,8 7,3 7,4 6,8

yi: 149 169 72 190 43 60 167 162 144.

7. Изучалась зависимость между минутным объемом сердца Y (л/мин) и средним давлением в левом предсердии Х (см рт.ст.).

хi: 4,8 6,4 9,3 11,2 17,7

yi: 0,4 0,69 1,29 1,64 2,4.

8-10. Данные о живой массе Х (кг) и длине туловища Y (см) серебристо-черных лисиц, выращиваемых на зверофермах:

8

xi 4,7 4,6 5,2 5,1 5,5 5,3 4,6 4,8 5,8 5,7

yi 70 65 69 70 60 68 65 71 69 68

9

xi 5,5 5,5 4,6 6,0 5,1 5,2 4,5 5,0 5,0 4,9

yi 62 63 64 66 68 69 58 63 69 67

10

xi 5,4 5,3 4,6 5,6 5,1 4,9 5,2 5,3 5,0 5,3

yi 63 64 64 66 63 69 62 72 66 66

11-15. Данные о длине туши Х (см) и толщине шпика Y (мм) для свиней различных пород:

11

xi 97 104 103 98 101 102 100 99 96 98

yi 35 31 32 34 30 33 31 34 35 32

12

xi 93 101 95 97 102 94 96 100 95 92

yi 36 31 34 35 30 35 36 31 36 37

13

xi 104 98 100 102 99 97 95 101 103 98

yi 31 35 32 31 32 33 36 32 30 35

14

xi 95 90 103 104 89 97 101 96 99 102

yi 36 37 32 31 37 35 34 34 33 32

15

xi 102 95 98 94 90 100 93 96 101 97

yi 32 37 34 37 38 30 36 35 31 35

16-20. У телят по глубине груди Х (см) и живой массе Y (кг) получены следующие данные:

16

xi 91 86 94 95 104 92 98 84 96 99

yi 62 43 60 73 87 65 79 52 65 68

17

xi 82 101 105 96 98 112 106 93 110 91

yi 51 59 78 63 73 68 65 63 70 62

18

xi 85 94 92 104 101 98 93 87 99 95

yi 56 63 60 70 64 59 61 49 58 65

19

xi 85 94 92 104 102 98 93 86 99 95

yi 56 61 59 72 62 55 63 46 57 66

20

xi 97 89 95 106 98 92 85 94 103 97

yi 61 48 59 75 62 67 60 72 78 58

21-23. Данные о длине грудного Х (мм) и брюшного Y (мм) плавника у окуней:

21

xi 38 31 36 43 29 33 28 25 36 26

yi 40 34 38 42 26 33 29 26 36 27

22

xi 27 27 28 26 26 25 24 28 28 27

yi 28 26 32 26 28 27 25 28 30 26

23

xi 26 23 22 25 24 29 25 25 30 23

yi 29 23 24 30 26 30 27 28 32 23

24. Данные о массе тела Х (г) и массе гребня Y (мг) петушков-леггорнов пятнадцатидневного возраста:

хi: 83 72 69 90 90 95 95 91 75 70

yi: 56 42 18 84 56 107 90 68 31 48.

    1. Данные о содержании коллагена Y и эластина Х в магистральных артериях головы (г/100 г сухого вещества) для различных возрастов:

25

(21-35 лет)

хi 14,9 16,72 7,73 9,9 8,84

yi 40,18 44,57 52,93 47,77 49,07

26

(36-50 лет)

xi 13,98 15,84 7,26 7,74 8,82

yi 35,50 42,82 47,79 43,29 49,47

27

(51-75 лет)

xi 13,50 13,09 6,45 7,26 8,80

yi 33,97 38,07 53,98 46,00 48,61

38

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]