Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции по статистике.doc
Скачиваний:
38
Добавлен:
24.03.2015
Размер:
468.48 Кб
Скачать

Тема: статистические приемы изучения взаимосвязей

  1. Основные понятия корреляционного и регрессионного анализа

  2. Парная корреляция

  3. Линейная регрессия

  4. Множественная линейная корреляция

  1. Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом проявляются количественные характеристики причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из важнейших задач статистики.

В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Полная связь довольно часто проявляется в физике и химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (полная или статистическая) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому - сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. При этом, каждому значению аргумента соответствует случайно распределенные в некотором интервале значения функции. (ПРИМЕР С УРОЖАЙНОСТЬЮ)

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Их также называют положительными и отрицательными.

По аналитической форме связи бывают линейными и нелинейными

С точки зрения взаимодействующих факторов связь бывает парной и множественной.

Кроме перечисленных различают также непосредственные, косвенные и ложные связи. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной характерно участие какой-то третьей переменной, которая обусловит связь. Ложная связь не имеет под собой качественной основы или же бессмысленна.

По силе связи различаются сильные и слабые связи.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа - это установление формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

  1. Простейшим приемом выявления связи является построение корреляционной таблицы. В основу группировки положены два изучаемых во взаимосвязи признака – Х и У. Частоты f показывают количество соответствующих сочетаний Х и У. Если частоты расположены в таблице беспорядочно, то можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания частот допустимо утверждать о связи между Х и У. При этом, если значения концентрируются около одной из двух диагоналей, имеет место прямая или обратная линейная связь.

Наглядным изображением корреляционной таблицы служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения Х, по оси ординат – У, а точками показывается сочетание Х и У.

Линейный коэффициент корреляции (r) используют для количественной оценки тесноты связи между двумя признаками:

r = XYX*Y

x*y , где x*y среднеквадратические отклонения признаков. Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.

Линейный коэффициент корреляции принимает значения в интервале от (-1) до (+1). Принято считать, что если [r] 0, то связь слабая; при [r] = (0,3 –0,7) – средняя; при [r] 0,7 – сильная, или тесная. Когда r =1 - связь функциональная. Если же r = 0, то это говорит об отсутствии линейной связи между Х и У. Однако в этом случае возможно нелинейное взаимодействие, что требует дополнительной проверки и других измерителей.

  1. Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависимость является линейной и выражается уравнением прямой

Ух= а0 1х,

где у- индивидуальные значения результативного признака;

х- индивидуальные значения факторного признака;

а0 , а1параметры уравнения прямой (уравнения регрессии);

Ухтеоретическое значение результативного признака.

Параметры уравнения прямой а0 и а1 определяются путем решения системы нормальных уравнений, полученных методом наименьших квадратов или по формулам:

у = na0 + a1x

yx = a0x + a1x2 , a1 = n yx - x y

nx2 - x x ;

или а1=Σ(х - )(у - )

Σ(х - )2 ; а0 =a1 р

НАПРИМЕР: Имеются выборочные данные по 10 однородным предприятиям:

Исходные данные

Расчетные значения

№ предприятия

Электровооруженность труда на одного рабочего, кВт-ч

Х

Выпуск продукции на одного рабочего, т У

ху

х –

у –

(х – )2

(у – )2

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

2

5

3

7

2

6

4

9

8

4

3

6

4

6

4

8

6

9

9

5

6

30

12

42

8

48

24

81

72

20

-3

0

-2

2

-3

1

-1

4

3

-1

-3

0

-2

0

-2

2

0

3

3

-1

9

0

4

4

9

1

1

16

9

1

9

0

4

0

4

4

0

9

9

1

Итого:

50

60

343

0

0

54

40

В среднем

5

6

34,3

а1 = 9 +0 +4+ 0 +6 +2 + 0 +12 +9 +1 = 43 = 0,7963

54 54

а0 = 6 – 0,7963*5 а0 = 2,02

Конкретное уравнение регрессии имеет вид: ух = 2,02 + 0,7963

Это означает, что с увеличением электровооруженности труда одного рабочего на 1 кВт-ч выпуск готовой продукции возрастет на 0,796 т.

Но это произойдет в том случае, если между данными двумя факторами действительно существует связь, чтобы определить ее наличие и измерить тесноту связи, рассчитаем коэффициент корреляции.

σх = 5,4 = 2,32σу = 4 = 2

r = 34,3 – 5*6

2,32 * 2 = 0,927

Связь прямая, сильная.

Исчисленный коэффициент необходимо на достоверность. Проверку проводят путем расчета критерия надежности по формуле: tr = I r I

σr

tкритерий надежности;

r – коэффициент корреляции;

σrсредняя ошибка коэффициента корреляции.

Если отношение коэффициента корреляции равно или больше 3, то r считается надежным, а связь доказанной с вероятностью 0,997. Если это отношение меньше 3, то связь между изучаемыми признаками нельзя считать доказанной и выводы анализа не используются. В свою очередь σr определяется по формуле σr = 1 –r2 / √n ,

где r2 - коэффициент детерминации, характеризующий удельный вес изучаемого признака в общей колеблемости. Он говорит о возможном числе случаев из 100.

n – число наблюдений.

σr = 1 – 0,859 / 10 = 0,141/3,162 = 0,044 , следовательно, в 86 случаях из 100 выпуск продукции в группе однородных предприятий возрастает под воздействием электровооруженности. Рассчитаем t

tr = 0.927 = 21.06

0,044

коэффициент корреляции превысил свою ошибку в 21 раз, следовательно, связь между факторами можно считать доказанной.

4. Когда требуется охарактеризовать связь множества независимых переменных с результативным признаком речь идет о множественной корреляции или множественной регрессии.

В таком случае, во-первых необходимо решить вопрос о регрессии. Зачастую от его решения зависят оценки тесноты связи. Прежде всего, определяют перечень независимых переменных в уравнении, это делается на основе теоретических положений., список Х может быть большим.

Первоначально обычно берется линейная модель множественной регрессии

Утеор. = а0 + а1х1 + а2х2 + ... + апхп ,

Где Утеор.- расчетное (ожидаемое) значение У при фиксированных начениях Х12, Х3 ...; а0, а1, а2, ... ап, - коэффициенты регрессии.

Для оценки уравнения регрессии рассчитывается коэффициент множественной корреляции.

Наиболее общие формулы для его определения имеют вид:

R = 1 – σ2 ост / σ2 ,где σ2общая дисперсия (дисперсия У)

σ2 остостаточная дисперсия, характеризующая вариацию У за счет факторов, не включенных в уравнение регрессии