Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Л Статистическое изучение взаимосвязей для студ...doc
Скачиваний:
6
Добавлен:
09.09.2019
Размер:
775.68 Кб
Скачать

Статистическое изучение взаимосвязи социально-экономических явлений (версия 2)

Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. При изучении этих явлений необходимо выявить основные причины, абстрагируясь от второстепенных.

Следует обратить внимание на этапы статистического изучения связей:

1 этап – качественный анализ явления, т.е. анализ природы явления методами экономической теории, социологии, конкретной экономики;

2 этап – построение модели связи;

3 этап – интерпретация результатов.

Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на 2 класса:

  1. признаки, обуславливающие изменение других связанных с ними признаков, называются факторными;

  2. результативные, изменяющиеся под действием факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты, по направлению и по аналитическому выражению.

В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частым случаем такой связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

По направлению выделяют связь прямую и обратную. По аналитическому выражению выделяют связи прямолинейные (линейные) и нелинейные (криволинейные).

Следует обратить внимание на основные методы выявления наличия связи, ее характера и направления.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Допустим, имеются данные о двух величинах:

Х – 1 2 3 4 5 6 7 8 9

У – 5 6 9 10 14 17 15 20 23

Мы видим, что с увеличением величины Х величина У также возрастает. Можно сделать предположение, что связь между ними прямая и что ее можно описать или уравнением прямой, или уравнением параболы второго порядка.

Статистическую связь между двумя признаками можно изобразить графически и по графику судить о наличии, направлении и форме связи. На оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Соединив полученные точки нанесенных на график значений Х и У прямыми линиями, получается ломаная, которая называется «ломаная регрессии». Число точек ломаной регрессии должно строго соответствовать числу единиц наблюдения, по которым даны значения обоих признаков. Кривая позволит судить о форме связи, об аналитическом ее выражении.

Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Аналитически связь между ними описывается уравнениями прямой, параболы, гиперболы. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о наличии линейной связи между ними, а при обратной связи – гиперболической. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная функция.

Модель регрессии может быть построена как по индивидуальным значениям признака, так и по сгруппированным данным.

Для выявления связи между признаками по достаточно большому числу наблюдений используется корреляционная таблица. В ней можно отобразить только парную связь, т.е. связь результативного признака с одним фактором, и на ее основе построить уравнение регрессии и определить показатели тесноты связи. Само уравнение регрессии может иметь линейную, параболическую и другие формы. Для составления корреляционной таблицы парной связи статистические данные необходимо предварительно сгруппировать по обоим признакам (Х и У), затем построить таблицу, по строкам в которой отложить группы результативного, а по столбцам – группы факторного признаков.

Корреляционная таблица дает общее представление о направлении связи. Если оба признака (Х и У) располагаются в возрастающем порядке, а частоты (fxy) сосредоточены по диагонали сверху вниз направо, то можно судить о прямой связи между признаками, в противном случае – об обратной.

О тесноте связи между признаками Х и У по корреляционной таблице можно судить по кучности расположения частот вокруг диагонали (насколько заполнены клетки таблицы в стороне от нее). Если клетки заполнены большими цифрами, то связь слабая. Чем ближе частоты (fxy) располагаются к одной из диагоналей, тем теснее связь. Если в расположении частот (fxy) нет системности, то можно судить об отсутствии связи.

Рассмотрим анализ статистических данных по корреляционной таблице, используя следующие данные (см. табл. 1).

Т а б л и ц а 1

Исходные и расчетные данные для определения коэффициента корреляции

Годы

Энерговооруженность труда, кВт·ч/чел.ч Х

Средняя

выработка,

тыс. руб. У

Х2

У2

ХУ

1999

4,0

8,43

16,00

71,06

33,72

2000

4,3

9,79

18,49

95,84

42,09

2001

6,7

9,06

44,89

82,08

60,70

2002

7,4

11,01

54,76

121,22

81,47

2003

7,7

11,69

59,29

136,66

90,01

2004

8,3

12,55

68,89

157,50

104,17

2005

9,6

10,12

92,16

102,41

97,15

2006

12,1

14,58

146,41

212,58

176,42

2007

15,0

14,18

225,00

201,07

212,70

2008

16,0

20,22

256,00

408,85

323,52

Итого

91,1

121,63

981,89

1589,27

1221,95

Вначале сгруппируем единицы наблюдения по значениям факторного и результативного признаков, образовав 4 группы. Величина интервала:

.

Группы для факторного признака:

I – 4–7 II – 7–10 III – 10–13 IV – 13–16

Группы для результативного признака:

I – 8,43–11,38 III – 14,33–17,28 II – 11,38–14,33 IV – 17,28–20,23

Т а б л и ц а 2

Корреляционная таблица

Средняя

выработка, тыс. руб./чел. у

Энерговооруженность труда, кВт·ч/чел·ч, х

fу

8,43–11,38

9,905

3

2

--

--

5

49,53

272,39

11,38–14,33

12,855

--

2

--

1

3

38,57

327,80

14,33–17,28

15,805

--

--

1

--

1

15,81

181,76

17,28–20,23

18,755

--

--

--

1

1

18,76

271,95

Fх

--

3

4

1

2

10

122,6

1053,9

--

16,5

34,0

11,5

29,0

91,0

--

--

--

90,75

289,0

132,25

420,5

932,5

--

--

--

5,08

9,22

13,36

17,5

---

---

---

Анализ таблицы показывает, что частоты (fxy) расположены по диагонали сверху вниз, что свидетельствует о наличии прямой связи между энерговооруженностью труда и выработкой. Наблюдается концентрация частот вокруг главной диагонали и незаполненность оставшихся клеток, поэтому можно предположить достаточно тесную связь между рассматриваемыми признаками.

Расчет и анализ средних значений по группам факторных признаков х подтверждает наличие прямолинейной зависимости между х и у.

Считая, что зависимость описывается уравнением прямой (ух=ао+а1х), коэффициенты ао, а1 определим из системы нормальных уравнений вида:

Отсюда: а0 = - 2,51; а1 = 1,38.

Следовательно,

Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной) регрессии. Построение моделей множественной регрессии следует осуществлять по этапам:

  1. выбор формы связи (уравнения регрессии);

  2. отбор факторных признаков;

  3. обеспечение достаточного объема совокупности для получения несмещенных оценок.

Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей:

  1. линейная: ;

  2. степенная: ;

  3. показательная: ;

  4. параболическая: ;

  5. гиперболическая: .

Надо иметь в виду, что основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации.

При построении моделей регрессии можно столкнуться с проблемой мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель. Мультиколлинеарность существенно искажает результаты исследования; ее устранение может реализоваться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков. А о наличии мультиколлинеарности можно судить по величине парного коэффициента корреляции ( ).

В уравнениях регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр а1 (а2) коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при изменении факторного на единицу его собственного измерения.

Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с анализа значимости каждого коэффициента регрессии. Значимость коэффициента регрессии осуществляется с помощью t-критерия Стьюдента:

, (1)

где ai2 – дисперсия коэффициента регрессии, которая может быть определена по выражению:

, (2)

где у2 – дисперсия результативного признака; к – число факторных признаков.

Параметр модели признается статистически значимым, если tp>tкр (табличное).

Проверка адекватности всей модели осуществляется с помощью величины средней ошибки аппроксимации (Е):

. (3)

Значение Е не должно превышать 12–15 %.

Важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений является измерение тесноты и направления связи.

Теснота связи при линейной зависимости измеряется с помощью линейного коэффициента корреляции. В статистической теории разработаны и на практике применяются различные модификации формул расчета данного коэффициента:

, (4)

, (5)

. (6)

Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость:

, (7)

где аi – коэффициент регрессии в уравнении связи; – среднее квадратическое отклонение соответствующего факторного признака.

Линейный коэффициент корреляции изменяется в пределах от -1 до 1: -1< <1. Знаки коэффициентов регрессии и корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно представить в таблице 3.

Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента:

. (8)

Если расчетное значение tp>tкр (табличное), то гипотеза об отсутствии связи отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а следовательно, и о статистической существенности зависимости между х и у.

Т а б л и ц а 3

Оценка линейного коэффициента корреляции

Значение линейного

коэффициента

корреляции

Характер связи

Интерпретация связи

=0

отсутствует

-

0< <1

прямая

С увеличением Х увеличивается У

-1<<0

обратная

С увеличением Х уменьшается У и наоборот

=1

функциональная

Каждому значению факторного признака строго соответствует одно значение результативного признака

Множественный коэффициент корреляции вычисляется при наличии линейной связи между результативными и несколькими факторными признаками, а также между каждой парой факторных признаков:

, (9)

где 2 – дисперсия теоретических значений результативного признака, рассчитанная по уравнению множественной регрессии; 2 – общая дисперсия результативного признака.

Проверка значимости коэффициента множественной корреляции осуществляется на основе F-критерия Фишера:

. (10)

Гипотеза о незначительности коэффициента множественной корреляции отвергается, если Fp>Fкр (табличное). R изменяется в пределах от 0 до1 и по определению положителен: 0>R<1.

1 Проявление стохастических связей подвержено действию закона больших чисел: лишь в достаточно большом числе единиц индивидуальные особенности сгладятся, случайности взаимопогасятся и зависимость, если она имеет существенную силу, проявится достаточно отчетливо

2 Термин «стохастический» происходит от греч. «stochos» – мишень. Стреляя в мишень, даже хороший стрелок редко попадает в ее центр, выстрелы ложатся в некоторой близости от него. Другими словами стохастическая связь означает приблизительный характер значений признака

3 Термин «корреляция» ввел в статистику английский биолог и статистик Ф. Гальтон в конце XIX в., под которым понималась «как бы связь», т.е. связь в форме, отличающейся от функциональной. Еще ранее этот термин применил француз Ж.Кювье в палеонтологии, где под законом корреляции частей животных он понимал возможность восстановить по найденным в раскопках частям облик всего животного

4 Множественная корреляция изучается в курсе эконометрики на основе применения компьютерных программ (напр., специальная надстройка к Excel, SPSS и др.), в курсе статистики изучается только парная корреляция

5 При измерении тесноты связи между рядами динамики это равнозначно отсутствию автокорреляции между уровнями ряда, т.е. прежде чем оценивать тесноту связи между рядами динамики, необходимо проверить каждый ряд на автокорреляцию – см. методические указания

6 Термин «регрессия» ввел в статистику Ф. Гальтон, который изучив большое число семей, установил, что в группе семей высокорослыми отцами сыновья в среднем ниже ростом, чем их отцы, а в группе семей с низкорослыми отцами сыновья в среднем выше отцов, т.е. отклонение роста от среднего в следующем поколении уменьшается – регрессирует

7 Параметры a0 и a1 можно получить не только методом подстановки как приводится далее, но и методом определителей 2-го порядка (проделать данное задание самостоятельно)

8 Сумма эмпирических (2864,09) и выравненных по прямой линии (2864,115) значений должна совпадать, но в нашем случае этого не происходит из-за округлений расчетов до 3-х знаков после запятой

9 В числителе – сумма последнего столбца, а в знаменателе – сумма предпоследнего столбца таблицы 7