Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций за 3й семестр.doc
Скачиваний:
44
Добавлен:
20.09.2019
Размер:
1.71 Mб
Скачать
        1. Способы отбора факторных переменных.

Для проведения правильного анализа необходимо знать всю совокупность связей между переменными.

В 1934 году Роберт Фриш предложил одновременно исследовать все возможные виды уравнений регрессии между различными сочетаниями переменных. Анализируя разные варианты уравнений регрессии, Р. Фриш обнаружил эффект деградации регрессии. Он заключался в том, что если в регрессию включить много переменных, имеющих линейные связи друг с другом, то коэффициенты регрессии возвращаются к тем же значениям, которые они имели в уравнении с наименьшим числом переменных.

Он предложил считать, что существует три вида переменных:

  • Полезные;

  • Лишние;

  • Вредные.

Если переменную включают в модель, и при этом она существенно повышает индекс детерминации (квадрат корреляционного отношения), причем коэффициент регрессии при других переменных при этом изменится, то переменная называется полезной переменной.

Если переменную включают в модель, и при этом ни индекс детерминации, ни коэффициенты регрессии при других переменных существенно не меняются, то переменная называется лишней.

Если переменную включают в модель и при этом индекс детерминации существенно не меняется, но значительно изменяются коэффициенты регрессии при других переменных, то переменная называется вредной.

Такой анализ регрессионных моделей Р. Фриш назвал конфлюэнтным анализом и предложил его использовать для отбора факторных переменных, которые следует включать в модель.

Явление линейной зависимости между двумя переменными называется коллинеарностью. Одновременная зависимость между несколькими переменными называется мультиколлинеарностью.

Считается, что нельзя одновременно включать в модель линейно зависимые (коллинеарные) переменные. Для оценки линейной зависимости между двумя переменными измеряют парные коэффициенты корреляции. Для проверки наличия мультиколлинеарности рассчитывают определитель матрицы коэффициентов парной корреляции.

Пусть x1 , x2 - разные факторные переменные, которые приобретают n различных значений.

Если r(х1 , х2) > 0.8, то факторы х1 и х2 считаются коллинеарными, и их нельзя одновременно включать в модель.

При построении уравнений множественной регрессии необходимо проводить предварительный анализ мультиколлинеарности и на его основе отбирать те переменные, которые целесообразно включать в модель.

Пример

Предположим, что нам необходимо использовать зависимость расходов семьи на покупку товаров длительного пользования от различных факторов и для этого по исходным данным, приведенным в таблице 11.1, построить уравнение двухфакторной линейной регрессии. Предварительно необходимо отобрать из всех возможных факторных признаков, по которым имеются исходные данные, два фактора, между которыми нет корреляционной зависимости, и в то же время связь каждого из них с результативным показателем y сильнее, чем их связь между собой.

Таблица 11.1

Исходные данные для построения уравнений регрессии

№№

x1

x2

x3

x4

x5

y

1

1

5

0

5

3

1

2

2

12

0

6

6

5

3

2

18

0

9

8

6

4

2

6

1

3

5

0,8

5

3

16

0

5,3

12

3

6

3

14

1

4,7

10

3

7

3

18

1

6

12

4

8

3

10

2

3,3

9

0,5

9

4

15

2

3,75

12

2,5

10

5

16

3

3,2

14

1,5

Σ

28

130

10

49,3

91

27,3

В таблице 11.2 используются следующие обозначения:

Обозначения факторных признаков:

x1- число членов семьи,

x2 - доход семьи,

x3 - число детей в семье,

x4 - среднедушевой доход,

x5 - затраты на питание,

y - расходы на покупку товаров длительного пользования.

Прежде чем строить уравнения регрессии, необходимо выполнить анализ мультиколлинеарности исходных переменных, чтобы отобрать те факторы, которые целесообразно включить в соответствующие уравнения (модели).

С этой целью рассчитаем коэффициенты парной корреляции между каждой парой факторов и отберем те факторы, коэффициент корреляции между которыми удовлетворяет условиям:

1) r (xi ,xj)< 0,8 , и одновременно при этом:

2) r (xi ,xj) r (xi ,y)

3) r (xi ,xj) r(xj ,y)

Для расчета каждого коэффициента парной корреляции построим вспомогательную таблицу следующего вида (на примере расчета коэффициента корреляции между факторами x1 и x4):

Таблица 11.2.

Вспомогательная таблица для расчета парного линейного коэффициента корреляции между факторами x1 и x4

Исходные данные

Вспомогательные расчеты

№/№

x1

x4

( )2

( )2

( ) ( )

1

1

1

-1,80

-1,73

3,24

2,99

3,11

2

2

5

-0,80

2,27

0,64

5,15

-1,82

3

2

6

-0,80

3,27

0,64

10,69

-2,62

4

2

0,8

-0,80

-1,93

0,64

3,72

1,54

5

3

3

0,20

0,27

0,04

0,07

0,05

6

3

3

0,20

0,27

0,04

0,07

0,05

7

3

4

0,20

1,27

0,04

1,61

0,25

8

3

0,5

0,20

-2,23

0,04

4,97

-0,45

9

4

2,5

1,20

-0,23

1,44

0,05

-0,28

10

5

1,5

2,20

-1,23

4,84

1,51

-2,71

Σ

28

27,3

0

0,00

11,6

30,86

-2,84

Средние значения признаков находим по формулам: