Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебн пособие печать рек ббк.doc
Скачиваний:
224
Добавлен:
10.05.2015
Размер:
38.43 Mб
Скачать

7.3. Оценка тесноты линейной и нелинейной связи

Одним из основных методов статистического анализа взаимозависимости показателей является корреляционный анализ. При проведении корреляционного анализа предполагают, что данные наблюдений можно считать случайными и выбранными из генеральной совокупности, распределенной по нормальному закону. С помощью корреляционного анализа оценивают не только тесноту связи между показателями, но и решаются задачи отбора факторов, оказывающих наиболее существенное влияние на зависимый признак, обнаружение ранее неизвестных причинных связей. Корреляционный анализ не выявляет причину связей между показателями, но устанавливает количественную меру этих связей и подтверждает достоверность суждений о наличии связи.

При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит n наблюдений.

Основными средствами анализа являются парные коэффициенты корреляции, частные коэффициенты корреляции и множественные коэффициенты корреляции. Коэффициенты не имеют размерности, следовательно, сопоставимы для различных статистических показателей.

Парный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными на фоне действия всех остальных показателей, входящих в модель.

При изучении взаимосвязи между двумя переменными их обычно обозначают X и Y. Для двух переменных и коэффициент парной корреляции определяется по формуле:

,

где - оценки дисперсий величинX и Y. Эти оценки характеризуют степень разброса значений вокруг своего среднего значениясоответственно, или вариабельность (изменчивость) этих переменных на множестве наблюдений.

Оценки дисперсий определяются по формуле:

, .

Величина парного коэффициента корреляции лежит в пределах от -1 до +1. Если корреляция между случайными величинами положительная, то при возрастании одной случайной величины другая величина имеет тенденцию в среднем возрастать. Если корреляция между случайными величинами отрицательная, то при возрастании одной случайной величины другая величина имеет тенденцию в среднем убывать.

Чем ближе коэффициент корреляции к ±1, чем сильнее зависимость между переменными. Близость абсолютной величины коэффициента корреляции к нулю не означает, что переменные статистически независимы, а лишь указывает на отсутствие линейной связи между ними, что не отрицает возможность существования иной формы зависимости между переменными.

В практике статистического анализа встречаются случаи ложной (или бессмысленной) корреляции, когда высокое значение коэффициента корреляции обнаруживает существование достаточно сильной зависимости признаков, в действительности не имеющих причинной связи между собой. Классический пример ложной корреляции приведен в 20 веке известным российским статистиком А.А. Чупровым: если в качестве независимой переменной взять число пожарных команд в городе, а в качестве зависимой переменной сумму убытков от пожаров за год, то между ними есть корреляционная зависимость, т.е. чем больше пожарных машин, тем больше сумма убытков. На самом деле здесь нет причинно-следственной связи, а лишь следствия общей причины – величины города.

Обычно ложные корреляции получают при измерении зависимости временных рядов двух показателей, не связанных причинной зависимостью. Примерами ложных корреляций может служить совпадение тенденции роста потребительских цен и роста потребительских доходов в постоянных ценах и т.п. В этом случае тенденции процессов совпадают при отсутствии между показателями логически обоснованной взаимосвязи. Одним из путей выявления ложной корреляции является содержательный анализ проблемы. В дальнейшем будем полагать, что между изучаемыми переменными существует причинная связь и, следовательно, применение корреляционного анализа имеет логическое основание.

Поскольку оценка тесноты связи с помощью коэффициента корреляции проводится, как правило, на основе ограниченной информации об изучаемом явлении, то возникает вопрос: насколько правомерно наше заключение по выборочным данным о наличии корреляционной связи в той генеральной совокупности, из которой была извлечена выборка?

В связи с этим возникает необходимость оценки значимости линейного коэффициента корреляции, позволяющая распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции.

При малых выборках оценка значимости коэффициента корреляции выполняется с использованием t-критерия Стьюдента. Проверяется гипотеза равенства нулю коэффициента корреляции Н0: ρ=0. При этом фактическое (наблюдаемое) значение t-критерия Стьюдента определяется по формуле:

.

Найденное по этой формуле сравнивается с критическим значениемt-критерия, которое выбирается из таблицы значений t-критерия Стьюдента с учетом заданного уровня значимости α и числа степеней свободы (n-2). Если , то полученное значение коэффициента корреляции признается значимым, т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается с вероятностью ошибкиα. Таким образом делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если совокупность данных состоит из переменной и m независимых переменных (факторов) Х, каждая из которых содержит n наблюдений, то исходные данные для анализа можно записать в матричном виде:

.

На основании данных, содержащихся в этой матрице, вычисляется матрица коэффициентов парной корреляции R:

,

Матрица является симметричной относительно главной диагонали. Анализ матрицы парной корреляции используется при построении моделей множественной регрессии.

Пример 7.1. В таблице приведены данные, характеризующие деятельность предприятия. Построить матрицу коэффициентов парной корреляции R. Оценить силу связи между объясняемой переменной иобъясняющими переменными при уровне значимости α=0,05.

Период

Прибыль от реализации продукции в % от общего объема прибыли,

Доля продажи в общем объеме продаж в %,

Отпускная цена продукции

в руб.,

Коэффициент издержек на единицу продукции,

1

2

3

4

5

6

7

8

9

10

11

12

10,6

10,9

10,8

11,1

12,7

13

13,2

13,8

14,7

15

15,8

15,4

20,1

20,6

18,9

23

18,4

17,3

19,6

20,1

26,1

26,5

24,2

24,4

1064

1046

1059

1057

1084

1090

1138

1178

1255

1274

1305

1408

32,3

30,2

38,6

28,7

39,5

40,3

47,6

48,4

40,8

46,7

48,6

48,7

Для проведения корреляционного анализа используем стандартную офисную программу EXCEL. Для построения корреляционной матрицы воспользуемся инструментом КОРРЕЛЯЦИЯ настройки ПАКЕТ АНАЛИЗА (рис.7.2), запуск которого осуществляется следующим образом:

СервисАнализ данныхКорреляцияОК.

Рис.7.2. Использование инструмента КОРРЕЛЯЦИЯ.

В диалоговом окне КОРРЕЛЯЦИЯ в поле Входной интервал необходимо ввести диапазон ячеек, содержащих исходные данные. Исходные данные для корреляционного анализа должны располагаться в смежных диапазонах ячеек. Флажок Метки в первой строке – устанавливается в активное состояние, если выделены и заголовки столбцов. На рис. 7.3. показана экранная форма вычисления матрицы коэффициентов парной корреляции с помощью инструмента КОРРЕЛЯЦИЯ.

Рис. 7.3. Вычисление матрицы коэффициентов парной корреляции с помощью инструмента КОРРЕЛЯЦИЯ

Результатом работы инструмента КОРРЕЛЯЦИЯ является таблица, содержащая рассчитанные линейные коэффициенты корреляции (рис.7.4.).

Рис. 7.4. Матрица коэффициентов парной корреляции

Результаты расчета в EXCEL приведены в таблице 7.1.

Таблица 7.1.

Матрица парных корреляций

Переменная

Y

X1

X2

X3

Y

1

0,612

0,918

0,847

X1

0,612

1

0,731

0,257

X2

0,918

0,731

1

0,755

X3

0,847

0,257

0,755

1

Оценку значимости коэффициентов корреляции выполним с использованием t-критерия Стьюдента:

.

Для коэффициента корреляции :.

Табличное значение критерия Стьюдента при уровне значимости α=0,05 и числе степеней свободы 10 равно 2,228. Так как , то полученное значение коэффициента корреляции признается значимым. Таким образом, делаем вывод, что между прибылью от реализации продукции и долей продаж существует статистическая взаимосвязь.

Аналогично проводим оценку значимости cилы связи между остальными переменными.

Для коэффициента корреляции :. Делаем вывод, что между прибылью от реализации продукции и отпускной ценой продукции существует статистическая взаимосвязь.

Для коэффициента корреляции :. Делаем вывод, что между прибылью от реализации продукции и коэффициентом издержек существует статистическая взаимосвязь.

Однако одной корреляционной матрицей полностью описать зависимости между величинами нельзя. В связи с этим в многомерном корреляционном анализе рассматриваются еще две задачи:

  1. Определение тесноты связи между двумя величинами при фиксировании или исключении влияния остальных величин;

  2. Определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ.

Эти задачи решаются соответственно с помощью коэффициентов частной корреляции и множественной корреляции.

Если рассматриваемые случайные величины коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния других случайных величин.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными при исключении влияния всех остальных показателей, входящих в модель.

Выборочный частный коэффициент корреляции вычисляется по формуле:

,

где - алгебраические дополнения к соответствующим элементам матрицыR. , где- минор, определитель матрицы, получаемый из матрицыR, путем вычеркивания j-й строки и k-го столбца. Частный коэффициент корреляции, так же как и парный коэффициент корреляции, изменяется в пределах от -1 до +1. Значимость частного коэффициента корреляции, так же как и парного коэффициента, проверяется по t-критерию Стьюдента:

,

где m – число фиксируемых факторов.

Решение второй задачи (определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ) осуществляется с помощью коэффициента множественной корреляции.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (зависимой) и остальными, входящими в модель. Чем выше значение коэффициента множественной корреляции, тем сильнее связь зависимой переменной с объясняющими переменными.

Выборочный коэффициент множественной корреляции определяется по формуле:

,

где | R | - определитель корреляционной матрицы R, - алгебраическое дополнение элементатой же матрицыR.

Коэффициентом детерминации R2 называется квадрат множественного коэффициента корреляции. Он характеризует долю дисперсии результативной переменной, обусловленной влиянием всех остальных переменных, входящих в модель.

Величина множественного коэффициент корреляции и коэффициента детерминации лежит в пределах от 0 до 1.

Проверка значимости коэффициента множественной корреляции (коэффициента детерминации) осуществляется по F-критерию Фишера. Проверяется гипотеза равенства нулю множественного коэффициента корреляции Н0: . При этом фактическое (наблюдаемое) значение F- критерия Фишера определяется по формуле:

,

где n – число наблюдений;

p – количество параметров модели.

Найденное по этой формуле сравнивается с табличным значениемF-критерия, которое выбирается из таблицы значений F- критерия Фишера с учетом заданного уровня значимости α и степенями свободы . Если , то коэффициентR2 значимо отличается от нуля.

Если между переменными существует нелинейная зависимость, то использовать коэффициент корреляции в качестве характеристики тесноты связи не имеет смысла. В этом случае для измерения тесноты связи можно воспользоваться таким показателем, как индекс корреляции (эмпирическое корреляционное отношение). Как показатель тесноты связи эмпирическое корреляционное отношение имеет более универсальный характер, поскольку может использоваться в случае линейной и нелинейной зависимости между показателями, а факторный признак может быть не только количественным, а ранговым и даже номинальным.

Корреляционное отношение определяется как отношение межгрупповой дисперсии к общей дисперсии:

,

где - межгрупповая дисперсия;

- общая дисперсия.

Дисперсии определяются по формулам:

, ,

где k – число групп;

- среднее значение результативного признака в j – группе;

- общая средняя результативного признака;

- число наблюдений в j–ой группе, ,.

Применение корреляционного отношения возможно, если характер выборочных данных (количество, плотность расположение на диаграмме рассеивания) допускает, во-первых, их группирование по оси объясняющей переменной, и, во-вторых, возможность подсчета частных математических ожиданий внутри каждого интервала группирования.

Для определения эмпирического корреляционного отношения совокупность значений результативного признака разбивается на отдельные группы по определенному факторному признаку. Для каждой из этих групп вычисляются соответствующие групповые средние результативного признака. Взаимосвязь между факторным признаком и результативным проявляется в том, что с изменением факторного признака систематически возрастает или убывает среднее значение результативного признака. Например, группируя предприятия, производящие одну и ту же продукцию по техническому уровню производства (по уровню фондовооруженности) и вычислив для каждой группы среднюю выработку на одного работающего, можно установить наличие связи между названными факторами. Изменение групповых средних от группы к группе свидетельствует о наличии связи результативного признака с факторным признаком, а примерное равенство групповых средних – об отсутствии связи.

Величина корреляционного отношения принимает значения от 0 до 1. Близость ее к нулю говорит об отсутствии связи, близость к единице о тесной связи. В случае линейной связи величина эмпирического корреляционного отношения равна коэффициенту корреляции. Эмпирическое корреляционное отношение не может быть меньше коэффициента корреляции, что позволяет использовать величину разницу в качестве меры отклонения регрессионной зависимости от линейного вида.

Пример 7.2. По корреляционной матрице примера 7.1 построить матрицу коэффициентов частных корреляций. Проверить значимость частных коэффициентов при уровне значимости α=0,1.

Определим частный коэффициент корреляции :

,

,

,

,

.

Определим частный коэффициент корреляции :

,

,

,

,

.

Аналогично определяем остальные коэффициенты частных корреляций, результаты расчета приведены в таблице 7.2.

Таблица 7.2.

Матрица частных корреляций

Переменная

Y

X1

X2

X3

Y

1

0,282

0,435

0,609

X1

0,282

1

0,609

-0,673

X2

0,435

0,609

1

0,349

X3

0,609

-0,673

0,349

1

Оценку значимости коэффициентов корреляции выполним с использованием t-критерия Стьюдента:

Для коэффициента частной корреляции :.

Табличное значение критерия Стьюдента при уровне значимости α=0,1 и числе степеней свободы 8 равно 1,860. Так как , то полученное значение коэффициента частной корреляции признается незначимым.

Для коэффициента частнойкорреляции : . Так как , то полученное значение коэффициента частной корреляции признается незначимым.

Для коэффициента частной корреляции :.Так как , то полученное значение коэффициента корреляции признается значимым.

Аналогично проводим оценку значимости между остальными переменными.

Пример 7.3. По корреляционной матрице примера 7.1 вычислить множественный коэффициент корреляции и при уровне значимости α=0,05 оценить его значимость.

Выборочный коэффициент множественной корреляции определяется по формуле:

,

где | R | - определитель корреляционной матрицы R, - алгебраическое дополнение элементатой же матрицыR.

Определитель корреляционной матрицы Rравен:

.

.

Проверка значимости коэффициента множественной корреляции проведем по F-критерию Фишера. Наблюдаемое значение F- критерия Фишера равно:

,

Табличное значение F-критерия при уровне значимости α=0,05 и числе степеней свободы . Так как, то связь статистически значима.