Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

общая теория статистики

.pdf
Скачиваний:
127
Добавлен:
01.06.2015
Размер:
1.42 Mб
Скачать

В статистике принято различать следующие варианты зависимостей.

1.парная корреляция – связь между двумя признаками (результативным

ифакторным или двумя факторными).

2.Частная корреляциязависимость между результативными и одним факторным признаками или фиксированном значении других факторных признаков.

3.Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции.

Таблица.

Количественные критерии оценки тесноты связи

Величина коэффициента

Характер связи

корреляции

 

 

 

До│±0,3│

Практическая отсутствует

│±0,3│-│±0,5│

Слабая

│±0,5│- │±0,7│

Умеренная

│±0,7│- │±1,0│

Сильная

 

 

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной).

По форме зависимости различают:

а) линейную регрессию, которая выражается уравнением прямой (линейной функцией) вида:

У = a0 + a1 х .

б) нелинейную регрессию, которая выражается уравнением вида: парабола: У = a0 + a1 х + a2 х2 ;

гипербола: У = a0 + a1 : х .

Для обеспечения устойчивости параметров уравнения связи необходимо ограничить количество факторных показателей. Так, на 8-10 единиц совокупности можно брать только один фактор.

При отборе факторов в модель необходимо проверить существенность их влияния на результативный признак. Определение формы связи

164

линейности уравнения также строится на логическом мышлении данных группировок и построении корреляционного поля. Затем подбирается математическое уравнение. Так, если наблюдается тенденция, при которой изменения зависимого признака прямо пропорциональны изменениям показателя фактора, то связь называется прямолинейной. В противном случае связь называется криволинейной. Уравнение, с помощью которого выражают корреляционную связь, называется уравнением регрессии, или корреляционным уравнением. Общий вид уравнения регрессии с одним факторным показателем:

У = f ( х ) .

При прямолинейной зависимости уравнение регрессии имеет вид уравнения прямой линии:

 

У = a0 + a1х ,

где

У – теоретическое значение зависимого признака; х – значение

фактора-аргумента; a0 и a1 – параметры уравнения регрессии.

Параметр a1 называется коэффициентом регрессии и показывает, на какую величину изменяется в среднем зависимый признак при увеличении

фактора – аргумента на единицу. Свободный член уравнения a0 не имеет к.-л. экономического содержания.

В практике экономического анализа возникает необходимость изучения зависимости результативного признака от нескольких показателей – факторов. Если допустить, что связь между анализируемыми факторами линейная, то зависимость между результативным признаком и несколькими факторамиаргументами – множественная. Множественная связь может быть выражена формулой:

У= а0 + а1х1 + а2 х2 + а3х3 + ...+ аn xn .

Воснове определения параметров уравнения регрессии лежит метод наименьших квадратов.

При множественной связи интерпретация коэффициентов регрессии иная, чем в парной. Если при парной связи коэффициент регрессии называется коэффициентом полной регрессии, то при множественной связи коэффициенты регрессии называются коэффициентами чистой регрессии. Коэффициент чистой регрессии показывает, на какую величину изменяется в среднем результативный признак при изменении соответствующего фактора на единицу при условии, что остальные факторы, включенные в уравнение, зафиксированы одном уровне.

После решения модели необходимо проанализировать ее по ряду характеристик:

1. Провести анализ матрицы парных коэффициентов корреляции с целью исключения мультиколлинеарности.

165

2.Провести оценку достоверности коэффициента чистой регрессии по t

критерию Стьюдента.

Величина устанавливается по таблицам. Для больших выборок (при n > 30 ) по таблице интервала вероятностей, для малых (при n < 30 ) – по таблице t распределения Стьюдента.

t =

 

r2

×(n - 2)

1 r

 

.

Если t фактическое превышает

t

табличное, исходя из принятого

уровня вероятности и числа степеней свободы, то можно сделать заключение о достоверности коэффициента чистой регрессии.

Статистическая существенность уравнения корреляции в целом может быть определена по F – критерию Фишера. Фактически полученное значение F – критерия сравнивается с F – критерием табличным. И если F фактическое больше F табличного, то уравнение можно считать существенным.

Изменение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи социальноэкономических явлений.

Теснота связи при линейной зависимости измеряется с помощью линейного коэффициента корреляции:

= ху х × у . r ху σ х ×σ у

Линейный коэффициент корреляции изменяется в пределах от –1 до 1: 1 < r < 1. Знаки коэффициентов регрессии и корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно представить в таблице:

Оценка линейного коэффициента корреляции

Значение линейного

Характер связи

Интерпретация связи

коэффициента связи

 

 

r = 0

отсутствует

-

0 < r < 1

прямая

С увеличением x увеличивается

y

 

 

 

 

С увеличением x

1 < r < 0

обратная

уменьшается y ,

 

 

и наоборот

 

 

Каждому значению факторного

r = 1

полная

признака строго соответствует

функциональная

одно значение результативного

 

 

 

признака

Квадраты коэффициента корреляции и множественного коэффициента корреляции называются соответственно коэффициентом детерминации и коэффициентом множественной детерминации и показывают величину вариации результативного признака, которая объясняется влиянием факторов,

166

входящих в модель. Например: если R2 = 0,68 , то это значит, что 68% вариации результативного признака обусловлено влиянием включенных в модель факторов.

Для измерения количественного влияния факторов на результативный признак необходимо проанализировать коэффициенты чистой регрессии. Они показывают, на сколько в среднем изменяется значение у с изменением фактора на единицу при фиксированном положении других факторов включенных в модель. Например:

 

 

y = 1732,0 + 52,6× x1 -12,9× x2 + 42,0× x3 .

Интерпретация полученного уравнение следующая:

a0

= 1732,0

– свободный член уравнения (экономического значения не

имеет);

 

 

 

a1

= 52,6

коэффициент чистой регрессии при первом факторе,

свидетельствует о том, что при изменении данного фактора на единицу значение у в среднем увеличится на 52,6 единиц при условии, что другие факторы зафиксированы на одном среднем уровне.

Коэффициенты регрессии в уравнениях парной и множественной связи являются величинами поименованными и имеют единицы измерения, соответствующие тем переменным между которыми они характеризуют связь.

Для оценки истинной роли различных факторов формировании величины показателя у абсолютные показатели необходимо дополнить

относительными. Таким показателем является Эi – коэффициент эластичности, который вычисляется по формуле:

Эi = ai × xyi ,

где ai – коэффициент регрессии при i – м факторе; xi – среднее значение i – го фактора; y – среднее значение y .

Коэффициент эластичности показывает, насколько процентов в среднем

изменяется результативный признак y с изменением фактора x j на 1% при фиксированном на среднем уровне всех других факторов, входящих в модель. Вычисление коэффициентов эластичности обязательное условие анализа.

Например:

Эxi = 0,36. Это значит,

что с изменением фактора x j на

1%

величина y

изменится в среднем на 0,36% .

 

Чтобы сравнить, какой из факторов оказывает наиболее сильное

воздействие

на результативный

признак, следует рассчитать

β -

коэффициенты (стандартизированные коэффициенты регрессии). β - коэффициент рассчитывается по формуле:

βi = ai ×σ j y ,

167

где σ j

– среднее квадратическое отклонение j – го фактора;

 

 

 

σ y

– среднее квадратическое отклонение y .

 

 

 

 

 

При значениях

β x =

0 ,145

; β x2

= 0,320 ;

β x3

= 0,048

можно сделать

вывод, что наиболее

сильное

 

влияние

на варьирование

 

результативного

признака оказывает

фактор

x

2

,

затем

факторы

x

 

x

3 . Величина

β j

 

1 и

 

 

показывает, на сколько средних квадратических отклонений в среднем

изменится y с изменением x j на одно среднее квадратическое отклонение при фиксированном на среднем уровне других факторов, входящих в модель.

Вклад каждого фактора в объяснение вариации y можно выяснить с помощью коэффициентов отдельного определения:

j = rjy × β j : r2 ,

где rjy – коэффициент парной корреляции между j – м фактором и у ;

r 2 –коэффициент детерминации.

Коэффициенты отдельного определения представляют составляющие части множественной детерминации и характеризуют долю вариации результативного признака, связанную с тем или иным фактором при исключении воздействия остальных факторов. Так, например:

r 2 = 0,8074;

х1 = 0,2146; х2 = 0,4723;

х3 = 0,1205.

Это значит, что

80,74% колеблемости

результативного признака

объясняется влиянием факторов, включенных в модель. Из этих 80,74% на долю 1-го показателя х1 приходится 21,46%, 2-го- х2 -47,23%, а 3-го- х3 - 12,05%.

На основании уравнения регрессии может быть определен прогнозируемый уровень результативного признака.

Методы изучения связи социальных явлений.

Важной задачей статистики является оценка социальных явлений, которые не имеют количественной величины. Для оценки взаимосвязи атрибутивных признаков применяются специальные коэффициенты. Основное условие для их расчетачастота совместного появления наблюдаемых атрибутивных признаков, и чем она выше, тем сильнее связь между ними.

Возьмем два атрибутивных признака с двумя возможными вариантами. Эти данные можно представить в четырехклеточной таблице, обозначив частоты сопоставляемых признаков a,b,c,d , а общую сумму частот – n .

Значение второго

 

Значение первого признака

 

признака

1-е

 

2-е

 

итого

1-е

a

 

b

 

a + b

2-е

c

 

d

 

c + d

итого

a + c

 

b + d

 

n

168

Теснота связи двух атрибутивных признаков, имеющих варианта, определяется с помощью коэффициентов ассоциации контингенции ( Kk ). Они рассчитываются по следующим формулам:

 

 

Ka =

 

ad - bc

;

 

 

 

 

ad + bc

 

 

 

 

 

 

 

Kk =

 

 

 

ad bc

 

.

 

 

 

 

 

(a + b)×(b

+ d )×(a + c)× (c + d)

 

 

 

по два

( Ka ) и

Коэффициент контингенции, как считается, всегда меньше коэффициента ассоциации и дает более осторожную оценку тесноты связи между признакам. Для объема совокупности от 30 единиц и выше связь можно считать значимой, если величина этих коэффициентов не меньше 0,5 и 0,3 соответственно.

Теснота связи между атрибутивными признаками с большим числом вариантов измеряется с помощью коэффициентов сопряженности Пирсона

( K П ) и Чупрова ( KЧ ). Они рассчитываются по следующим формулам:

ϕ 2

KП = 1+ ϕ 2 ;

KЧ = (K1 -1)ϕ 2(K2 -1) ,

×

где ϕ2 – показатель взаимной сопряженности; определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки минус 1:

ϕ 2 =

n2 xy

-1,

 

 

nx × ny

где: K1 – число значений (групп) первого признака; K2 – число значений (групп) второго признака.

Чем ближе коэффициенты сопряженности к 1, тем связь теснее.

Вспомогательная таблица для расчета коэффициента взаимной сопряженности

x

y

1

 

2

 

 

3

 

 

всего

1

 

 

 

 

 

 

nxy

 

nx

2

 

 

 

 

 

 

 

 

 

nx

3

 

 

 

 

 

 

 

 

 

nx

итого

 

ny

 

ny

 

 

 

 

ny

 

n

 

 

 

 

 

n2 × xy

 

 

 

n2 xy

 

 

 

 

 

 

 

 

 

 

 

 

 

ny

 

 

 

 

 

1+ϕ 2 =

 

n

x

=

.

 

 

 

 

ny

 

 

nx

 

 

 

 

 

 

 

 

 

 

 

169

Примеры решения типовых заданий

Пример 1.

Условие: Исследовалась зависимость между оценкой уровня жизни людей и районом проживания. Данные опроса представлены в таблице:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценка уровня жизни

 

 

 

 

 

 

 

 

 

 

район

 

 

 

 

 

 

 

 

 

вполне

 

 

скорее

 

 

 

 

 

скорее

 

совсем

 

 

 

 

Итого

 

 

 

 

 

 

 

удовлет-

 

удовлет-

 

 

 

не удов-

не удов-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ворен

 

 

 

ворен

 

 

 

летворен

летворен

 

 

 

 

 

 

Центральный

 

 

 

31

 

 

 

 

35

 

 

 

 

 

35

 

 

 

 

35

 

 

 

 

 

136

Октябрьский

 

 

 

 

 

 

 

 

17

 

 

 

 

13

 

 

 

 

 

14

 

 

 

 

9

 

 

 

 

 

53

Речной

 

 

 

 

 

 

 

 

24

 

 

 

 

22

 

 

 

 

 

11

 

 

 

 

8

 

 

 

 

 

65

Итого

 

 

 

 

 

 

 

 

72

 

 

 

 

70

 

 

 

 

 

60

 

 

 

 

52

 

 

 

 

 

254

Решение:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

KП =

 

 

 

 

ϕ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1+ ϕ 2

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

312

+

352

+

352

+

352

172

+

132

+

142

+

92

 

242

+

222

+

112

+

82

 

1+ϕ 2

=

 

72

 

70

60

52

 

 

+

 

72

 

70

 

60

52

+

72

70

 

60

52

=

 

 

 

 

136

 

 

 

 

 

 

 

 

53

 

 

 

 

 

 

65

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=0,550 + 0,212 + 0,279 = 1,041;

ϕ2 = 1,041-1 = 0,41;

0,041

КП = 1,041 = 0,198 ;

КЧ =

 

 

0,041

 

 

= 0,143

 

 

 

(3 -1)(3 -1)

 

 

 

.

 

 

 

 

Вывод: Оценка уровня жизни людей практически не зависит от района

проживания.

 

 

 

 

Пример 2.

Условие: Имеются следующие данные о доходах семей и потреблении масла на одного члена семьи:

Доходы за

 

 

 

 

 

 

 

 

месяц,

29

38

46

54

62

70

79

97,3

тыс.руб.

 

 

 

 

 

 

 

 

Потребление

15,2

17,0

25,0

26,3

32,0

34,1

38,0

42,0

масла, г

 

 

 

 

 

 

 

 

Решение:

 

 

 

 

 

 

 

 

Зависимость между доходом и потреблением масла линейная и выражается уравнением прямой:

y = a0 + a1 x

170

Где y - потребление масла; x - месячный доход семьи; а0 , а1 – параметры уравнения регрессии.

Для определения параметров уравнения регрессии строим расчетную таблицу.

№ п/п

Доходы за

Потребление

x2

xy

 

месяц, тыс.руб.

масла, г

 

 

1

29

15,2

841,00

440,8

2

38

17,0

1444,00

646,0

3

46

25,0

2116,00

1150,0

4

54

26,3

2916,00

1420,2

5

62

32,0

3844,00

1984,0

6

70

34,1

4900,00

2387,0

7

79

38,0

6241,00

3002,0

8

97,3

42,0

9467,29

4086,6

ИТОГО

475,3

229,6

31769,29

229,6

Подставим в систему нормальных уравнений фактические данные из таблицы:

8а0 + 475,3а1=229,6

475,3а0 +31769,29а1 =15116,6

Параметры уравнения можно определить и по следующим формулам:

a

=

å yåx2 åxyåx

a =

nåxy å yåx

 

0

 

nåx2 åxåx

1 nåx2 åxåx

Уравнение корреляционной связи примет вид: yx = 3.925 + 0.417x

Используя уравнение корреляционной связи можно определить значения y для любой промежуточной точки (интерполяция).

Коэффициент регрессии а1 уточняет связь между y и x. Он показывает, на сколько единиц изменяется результативный признак при увеличении факторного на единицу. В нашем примере а1 = 0,42. Значит, при увеличении дохода на 1 тыс.руб.потребление масла может увеличиться на 0,42 грамма.

Задания для самостоятельного решения

Задание 1.

Имеются следующие данные по 10 заводам отрасли:

 

Стоимость основных

Стоимость валовой

заводы

производственных

продукции,млн.руб.

 

фондов,млн.руб.

 

 

1

2

2.0

2

1

1,2

3

3

3,6

4

5

6,8

5

4

4,4

6

3

3,8

171

 

Стоимость основных

Стоимость валовой

заводы

производственных

продукции,млн.руб.

 

фондов,млн.руб.

 

 

7

1

0,8

8

2

2,2

9

4

5,0

10

5

4,6

Вычислите:

1)Линейное уравнение связи для характеристики зависимости между стоимостью основных производственных фондов и стоимостью произведенной продукции. Поясните значение полученного коэффициента регрессии.

2)Линейный коэффициент корреляции для оценки тесноты связи.

Задание 2.

Имеются следующие данные за ряд лет об объемах товарной продукции предприятия и численности промышленно-производственного персонала:

Год

2000

2001

2002

2003

2004

2005

Объем товарной

 

 

 

 

 

 

продукции,

367,0

356,1

625,2

520,3

102,2

129,3

тыс.руб.

 

 

 

 

 

 

Численность

393

386

474

530

398

405

персонала,чел.

 

 

 

 

 

 

Определите:

1)Наличие и тесноту связи между численностью персонала и объемом реализуемой продукции.

2)Дайте оценку уравнению регрессии ( F -критерий Фишера, средняя ошибка аппроксимации).

Задание 3.

По данным задачи 5. постройте уравнение регрессии между выручкой от реализации и размером нематериальных активов аудиторских фирм.

Рассчитайте коэффициент эластичности между фактором и результатом.

С помощью F – критерия сделайте вывод о правильности выбора уравнения связи.

Задание 4.

По данным таблицы задачи 5. постройте уравнение регрессии между оплатой труда и выручкой от реализации аудиторских фирм.

С помощью F – критерия сделайте вывод о правильности выбора вида взаимосвязи.

Рассчитайте эластичность изменения оплаты труда.

Задание 5.

172

В таблице представлены основные показатели деятельности аудиторских фирм в области:

Выручка от

Прибыль,

Нематериаль-

Основные

Оплата труда,

реализации,

ные активы,

средства,

п.п.

тыс. руб.

тыс.руб.

тыс. руб

тыс.руб.

тыс.руб.

 

 

 

1

112627

0

0

0

66955

2

59564

3739

3075

0

28289

3

107062

42442

615

5976

13997

4

0

-8414

6555

0

3638

5

57949

11326

2479

6728

1148

6

29135

22446

0

0

920

7

3256

71

0

2592

0

8

10083

40

31

0

2284

9

90902

37416

7438

0

42230

10

140000

4100

0

3075

16000

11

12847

1116

6375

14322

98

12

56500

4957

0

0

2376

13

30841

9838

10631

4820

14595

14

35274

632

406

0

10777

15

45520

14453

3100

20442

2742

16

935783

508909

24196

51661

183362

17

532340

321172

57467

7164

46795

18

832780

245417

74287

95803

46795

19

561199

244541

9243

88354

101839

20

45914

11309

7752

0

3729

По данным, характеризующим зависимость размера прибыли от размера нематериальных активов и основных средств, определите коэффициенты множественной корреляции и детерминации. Сделайте вывод о правильности выбора уравнения связи( с помощью F – критерия).

Задание 6.

С помощью коэффициента взаимной сопряженности Пирсона определите: является ли работа на компьютере фактором ухудшения зрения.

Работа за

Динамика состояния зрения за 3 года

всего

компьютером

не ухудшилось

ухудшилось

 

Не работает

70

5

75

Недавно работает

60

20

80

Давно работает

10

45

55

итого

140

70

210

173