Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Методические указания к проведению практических занятий по разделу Элементы теории корреляции дисциплины Основы системного анализа и математической статистики

..pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
229.03 Кб
Скачать

Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Пермский национальный исследовательский политехнический университет»

МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ПРОВЕДЕНИЮ ПРАКТИЧЕСКИХ ЗАНЯТИЙ

ПО РАЗДЕЛУ «ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ» ДИСЦИПЛИНЫ «ОСНОВЫ СИСТЕМНОГО АНАЛИЗА И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ»

для студентов магистратуры по направлению 08.04.01 «Строительство»

Издательство Пермского национального исследовательского

политехнического университета

2017

2

Составители: М.А. Макагонова, Н.В. Рогова, О.А. Федосеева

УДК 311.16 М54

Рецензент:

кандидат физ.-мат. наук С.М. Седова (Пермский национальный исследовательский политехнический университет)

Методические указания к проведению практических занятий по М54 разделу «Элементы теории корреляции» дисциплины «Основы системного анализа и математической статистики» для студентов магистратуры по направлению 08.04.01 «Строительство» / сост.

М.А. Макагонова, Н.В. Рогова, О.А. Федосеева. – Пермь: Изд-во Перм. нац. исслед. политехн. ун-та, 2017. – 15 с.

Методические указания составлены в соответствии с рабочей программой дисциплины «Основы системного анализа и математической статистики» по разделу «Элементы теории корреляции» для студентов магистратуры по направлению 08.04.01 «Строительство» Пермского национального исследовательского политехнического университета.

Отражены основные определения и понятия статистической и корреляционной зависимости. Разобраны методы определения коэффициентов линейной и нелинейной регрессии. Приведены задачи на нахождение коэффициента корреляции. Издание ориентировано на магистров, бакалавров и аспирантов.

УДК 311.16

© ПНИПУ, 2017

3

1. Статистическая и корреляционная зависимости

Одной из основных задач математической статистики является нахождение зависимости между двумя или несколькими случайными величинами.

Две случайные величины X и Y могут быть связаны функциональной зависимостью, когда каждому значению одной переменной соответствует вполне определенное значение другой. Однако строгая функциональная зависимость реализуется редко, т. к. случайные величины подвержены действию случайных факторов. В этом случае возникает статистическая зависимость.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой.

Корреляционной называется статистическая зависимость, при которой изменение одной величины влечет изменение среднего значения другой.

Условным средним y х называют среднее арифметическое значений Y ,

соответствующих значению X x .

 

 

 

 

 

 

 

 

 

Пример 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть приx1 3

 

величина Y

 

приняла

значения

 

y1

3, y2 4, y3

6,

 

y4 7. Найти условное среднее.

 

 

 

 

 

 

 

 

 

 

 

Решение:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 4 6 7

5.

 

 

 

 

 

 

 

 

 

 

 

 

yx

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Корреляционной зависимостью

Y от X называется

функциональная

зависимость условной средней

 

от x :

 

 

 

f (x).

 

 

 

 

 

y x

 

yx

 

 

 

 

 

 

 

Уравнение

 

f (x) называется уравнением регрессии Y на

X .

 

 

yx

График f (x) называется линией регрессии Y на X .

 

 

 

 

 

 

 

Аналогично

определяется

условное

среднее

 

y

и

корреляционная

 

 

x

зависимость x y (y) X от Y .

Y a bx
(x1, y1), (x2, y2 ), ..., (xn , yn ),

4

2.Основные задачи теории корреляции

1.Установление формы корреляционной связи, т. е. вида функции регрессии (линейная, квадратичная, показательная и т. д.). Если обе функции регрессии f (x) и (y) линейные, то корреляцию называют линейной, в

противном случае - нелинейной.

2. Оценка тесноты корреляционной связи Y от X , которая оценивается величиной рассеяния значений Y около y х . Большое рассеяние означает слабую зависимость Y от X , либо вообще отсутствие таковой. Малое рассеяние указывает на наличие достаточно сильной зависимости Y от X .

2.1. Определение коэффициентов линейной регрессии

Пусть даны результаты n измерений двух случайных величин X и Y :

(x1,y1), (x2,y2 ), ..., (xn ,yn ).

Пусть принята гипотеза о линейной зависимости между величинами X и Y . Рассмотрим простейший случай: различные значения x признака X и соответствующие им значения y признака Y наблюдались по одному разу. В этом случае нет надобности использовать понятие условной средней, поэтому искомое уравнение yx a bx можно записать так: Y a bx.

Параметры a и b можно найти различными способами. Наиболее известным является метод наименьших квадратов (МНК).

Подберем a и b так, чтобы точки

построенные на плоскости xOy по данным наблюдений, лежали как можно ближе к прямой в смысле МНК.. Это требование означает, что параметры a и b будем выбирать из условия, чтобы сумма квадратов

отклонений (Yi yi ) была

минимальной. Следовательно, рассмотрим

функцию

 

 

 

n

 

n

 

F(a,b) (Yi yi )2

((a bxi ) yi )2

min.

i 1

 

i 1

 

5

Для отыскания минимума приравниваем к нулю соответствующие частные производные (необходимое условие экстремума):

 

F(a,b)

n

 

 

2 (a bxi yi )xi 0,

 

b

 

 

i 1

 

F(a,b)

n

 

a

2 (a bxi yi ) 0.

 

i 1

Выполнив элементарные

преобразования, получим систему двух

линейных уравнений относительно a и b:

 

n

n

2

n

a xi b xi

xi yi ,

 

i 1

i 1

 

i 1

 

 

n

 

n

 

 

 

yi .

n a b xi

 

 

i 1

 

i 1

Решая эту систему, найдем искомые параметры:

 

 

 

 

 

n n xi yi

n

xi n yi

,

 

 

 

 

 

 

 

b

 

i 1

i 1

i 1

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

n xi2

( xi )2

 

 

 

 

 

 

 

 

 

 

 

 

i 1

i 1

 

 

 

 

 

 

 

 

 

n

xi2 n yi

n

xi n xi yi

 

 

 

 

 

a

i 1

i 1

i 1

i 1

 

.

 

 

 

 

 

 

 

 

n n xi2 ( n xi )2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

i 1

 

 

 

 

 

 

Угловой коэффициент b прямой линии регрессии Y

на X

называется

выборочным коэффициентом регрессииY на X .

 

 

 

Пример 2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти выборочное уравнение прямой линии регрессии Y на X

по данным

n 5 наблюдений:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

х

1,00

 

 

 

1,50

3,00

 

4,50

 

5,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

1,25

 

 

 

1,40

1,50

 

1,75

 

2,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

Решение:

По данным табл.1 составим таблицу, в которую занесем значения xi , yi , xi2 и xi yi .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi yi

 

 

 

 

xi

 

 

 

 

 

yi

 

xi2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,250

 

 

 

1,00

 

 

1,25

 

1,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,100

 

 

 

1,50

 

 

1,40

 

2,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,500

 

 

 

3,00

 

 

1,50

 

9,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,875

 

 

 

4,50

 

 

1,75

20,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11,250

 

 

 

5,00

 

 

2,25

25,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i i

 

 

 

 

i

 

 

 

 

 

i

 

xi2

57,50

 

 

 

 

x

 

 

15

 

y

 

8,15

 

x y 26,975

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

5 26,975 15 8,15

0,202

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5 57,5 152

 

 

 

 

 

 

 

 

 

 

 

 

a

 

57,5 8,15 15 26,975

1,024

 

 

 

 

 

 

 

 

5 57,5 152

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Искомое уравнение регрессии имеет вид: Y 1,024 0,202x .

Для того чтобы получить представление, насколько хорошо вычисленные

по этому уравнению значения Yi

согласуются с наблюдаемыми значениями

yi , найдем отклонения(Yi yi )

 

 

 

 

 

 

 

Таблица 3

 

 

 

 

 

 

 

x i

yi

Yi

Yi yi .

 

1,00

1,25

1,226

-0,024

 

 

 

 

 

 

 

1,50

1,40

1,327

-0,073

 

 

 

 

 

 

 

3,00

1,50

1,630

0,130

 

 

 

 

 

 

 

4,50

1,75

1,833

0,083

 

 

 

 

 

 

 

5,00

2,25

2,034

-0,216

 

Как видно из таблицы, не все отклонения достаточно малы. Это объясняется малым числом наблюдений

7

2.2. Выборочный коэффициент корреляции

Произведение

b

x

 

r

 

− носит

название выборочный коэффициент

 

 

 

 

 

 

 

 

 

 

 

y

 

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

корреляции.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

)2 ,

 

 

 

 

 

(

 

)2 - выборочные дисперсии,

D x

x 2

(

 

 

D y

y 2

 

x

 

y

 

 

 

 

 

)2 ,

 

 

 

 

(

 

)2

- выборочные средние квадратические

x

 

x2

(

 

y

 

y2

 

 

x

y

отклонения.

Выборочный коэффициент корреляции является мерой линейной зависимости между двумя наблюдаемыми величинами, характеризует

 

тесноту связи между СВ X и Y и определяется равенством: r

xy

 

x

 

y

.

 

 

 

 

 

 

 

 

 

 

в

 

x

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Свойства коэффициента корреляции

 

 

 

 

 

 

 

 

1.

Коэффициент корреляции rв

принимает значения на отрезке [ 1; 1], т. е.

 

1 rв 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

Чем ближе

 

rв

 

к 1, тем связь сильнее. Чем ближе

 

rв

 

к 0, тем связь слабее.

 

 

 

 

3.

Если все значения переменных увеличить (уменьшить) на одно и то же

 

число или в одно и то же число раз, то величина выборочного

 

коэффициента корреляции не измениться.

 

 

 

 

 

 

 

 

4.

Приrв 1 корреляционная связь представляет линейную функциональную

 

зависимость. При этом линии регрессии Y на X и X на Y совпадают, все

 

наблюдаемые значения распределяются на общей прямой.

 

 

 

 

 

 

 

 

5.

Если с ростом одной СВ

значения второй возрастают, то

rв 0, если

 

убывают, то rв 0.

 

 

 

 

 

 

 

 

 

 

 

 

 

6.

При rв 0 линейная корреляционная связь отсутствует, групповые средние

 

переменных совпадают с их общими средними, линии регрессии Y на X и

 

X на Y параллельны осям координат.

 

 

 

 

 

 

 

 

 

Выборочное уравнение линейной регрессии Y на X имеет вид:

 

 

 

 

 

 

 

8

yx y rв y (x x).

x

Аналогично можно получить уравнение линейной регрессии X наY :

 

 

 

 

r

x

(y

 

).

x

 

x

y

 

 

 

x

 

 

в

 

 

 

 

 

 

 

 

y

 

 

 

На практике совместное распределение СВ(X ,Y ) зачастую неизвестно, а известны только результаты наблюдений, поэтому в полученных уравнениях заменяем x и y их несмещенными оценками :

Sx2

1

 

n

(xi

 

)2

 

1

 

n

xi2

n

 

(

 

)2 ,

x

x

 

 

n 1

 

 

n 1 i 1

 

 

 

 

 

 

n 1 i 1

 

 

 

 

 

 

 

Sy2

 

1

 

n

(yi

 

)2

 

1

 

n

yi2

 

n

 

(

 

)2 .

 

 

y

y

 

 

 

 

 

 

n 1

 

 

n 1i 1

 

 

 

 

 

 

n 1i 1

 

 

 

 

 

 

 

Получим эмпирические функции линейной регрессии в виде:

 

 

 

 

 

 

 

r

S y

(x

 

 

),

 

y

 

y

x

 

 

 

 

 

 

x

 

 

 

 

 

в Sx

 

 

 

 

 

r

 

 

S x

(y

 

).

x

 

 

x

 

 

y

 

 

 

 

 

 

y

 

 

 

 

 

в

 

 

S y

Уравнения линейной регрессии получены в предположении, что все измерения встречаются по одному разу.

2.3. Корреляционная таблица

При большом числе наблюдений одно и то же значение СВX может повторяться nx раз, а СВ Y n y раз. Одна и та же пара чисел (x, y) может наблюдаться n xy раз. Поэтому данные наблюдений группируют, подсчитывая частоты nx , n y , n xy . Все данные записывают в корреляционную таблицу.

Пример 3.

Дана таблица распределения 100 заводов по производственным средствам X (тыс. ден. ед.) и по суточной выработке Y (т).

9

Известно, что между X и Y существует линейная корреляционная зависимость. Требуется: найти уравнение прямой регрессии Y на X и коэффициент корреляции.

В первой строке таблицы указаны наблюдаемые значения признака Y , а в первом столбце – наблюдаемые значения признака X . На пересечении строк и столбцов указаны частоты n xy наблюдаемых пар значений признаков.

Прочерк означает, что соответствующая пара чисел не наблюдалась.

Впоследнем столбце указаны суммы частот каждой строки, в последней строке – суммы частот каждого столбца.

Вклетке, расположенной в правом нижнем углу, помещена сумма всех частот (общее число всех наблюдений n 100 ).

 

 

 

 

 

 

 

 

Таблица 4

 

 

 

 

 

 

 

 

 

 

Y

4,5

6,0

7,5

9,0

10,5

12,0

13,5

15

nx

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

60

2

4

3

10

4

23

 

 

 

 

 

 

 

 

 

 

90

6

14

5

25

 

 

 

 

 

 

 

 

 

 

120

17

5

4

26

 

 

 

 

 

 

 

 

 

 

150

8

3

2

13

 

 

 

 

 

 

 

 

 

 

180

4

3

1

8

 

 

 

 

 

 

 

 

 

 

210

2

1

2

5

 

 

 

 

 

 

 

 

 

 

n y

2

4

9

24

26

19

11

5

100

Решение:

Очевидно, nx ny 100.

x 60 23 90 25 120 26 150 13 180 8 210 5 111,90, 100

 

4,5 2 6,0 4 7,5 9 9,0 24 10,5 26 12,0 19 13,5 11 15 5

10,41,

y

 

 

 

 

 

100

 

 

 

 

 

 

 

 

602 23 902

25 1202

26 1502

13 1802

8 2102

5

 

 

x

2

 

14319,

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

4,52

2 6,02 4 7,52 9 9,02 24 10,52 26 12,0

2 19

 

y

2

 

 

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

13,52

11 15

2 5

113,67,

 

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

nxy xy [(60 4,5 2) (60 6,0 4) (60 7,5 3) (60 9,0 10)

(60 10,5 4)] [(90 7,5 6) (90 9,0 14) (90 10,5 5)] [(120 10,5 17)

(120 12,0 5) (120 13,5 4)] [(150 12,0 8) (150 13,5 3) (150 15 2)]

[(180 12,0 4) (180 13,5 3) (180 15 1)] [(210 12,0 2) (210 13,5 1)

(210 15 2)] 124245,

 

 

 

 

 

 

n xy

 

xy

 

 

124245

1242,45,

 

 

 

 

 

 

 

xy

 

 

 

 

 

 

 

 

 

100

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S x2

 

1

 

 

n xi2

 

 

n

(

 

 

)2

1

 

1431900

100

(111,90)2 1815,55,

 

 

 

x

 

 

 

 

 

 

 

n 1

99

 

 

 

 

 

 

 

 

n 1 i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

99

 

 

 

S x

 

 

 

1815,55 42,61,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S y2

 

 

1

 

 

n yi2

 

 

n

(

 

)2

 

1

 

11367

100 (10,41)2 5,36,

 

 

y

 

 

 

 

 

 

 

 

n 1

99

 

 

 

 

 

 

 

n 1 i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

99

 

 

 

S y

 

 

 

5,36 2,32.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициент корреляции:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1242,45 111,90 10,41

 

 

r

 

 

 

xy

x

y

 

 

 

 

0,79

 

 

 

x y

 

 

 

14319 (111,90)2

113,67 (10,41)2

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так как

 

rв близок к единице,

то производственные средства и суточная

выработка находятся в тесной корреляционной зависимости.

 

 

 

 

 

Уравнение регрессии Y наX :

 

 

 

 

 

 

 

 

 

 

 

r

 

S y

(x

 

 

),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

y

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10,41

0,79

 

2,32

 

 

(x 111,90),

 

 

 

 

yx

 

 

 

 

 

 

 

 

 

42,61

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,04x 5,93.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Из уравнения следует, что с увеличением производственных средств на 1 тыс. ден. ед. суточная выработка увеличится на 0,04 т.

Соседние файлы в папке книги