Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
stat_umk.doc
Скачиваний:
173
Добавлен:
13.03.2015
Размер:
10.64 Mб
Скачать

Тема 8. Корреляционный анализ статданных. Коэффицент корреляции Пирсона. Коэффициент ранговой корреляции. Ложная и истинная корреляция Компьютерные технологии анализа.

Ранее мы рассмотривали главным образом такие статистические характеристики, как сред­нее значение и отклонение, которых обычно достаточно при работе с одномерными данными. Однако на практике сущест­вует достаточно большое количество явных и неявных взаимосвязей, например, между объемом выпускаемой предпри­ятием продукции и затратами на производство, между объемом сбыта и уровнем дохода и т.д. Иначе говоря, на практике речь часто может идти о двухмерных данных и зависимостях между ними.

Существует два базовых инструмента, с помощью которых анализируются двух­мерные данные: корреляционный анализ, позво­ляющий оценить степень взаимосвязи между двумя факторами (если такая взаимо­связь вообще существует), и регрессионный анализ, который показывает, как можно предсказать поведение одной из двух переменных или управлять ею с помощью дру­гой.

Коэффициент корреляции Пирсона

Измерение, насколько тесная связь существует между двумя переменными, позво­ляет, прежде всего, убедиться в ее реальном наличии. Наиболее важным для практического использования является случай, когда связь между признаками X и Y линейная. Мера силы линейной связи признаков X и Y называется коэффициентом корреляции (коэффициент линейной корреляции Пирсона) и определяется по следующей формуле:

.

Величина =cov(X,Y) называется ковариацией случайных величин X и Y или корреляционным моментом. Для независимых случайных величин ковариация будет равна нулю. Однако равенство cov(X, Y) = 0 не означает в общем случае полной независимости величин X и Y, т.е. оно является необходимым, но не достаточным ус­ловием для независимости признаков.

Величина ковариации зависит от единиц измерения (изменяется, например, при переходе от метров к сантиметрам). Поэтому на практике чаще используют другой показатель - коэффициент корреляции, который является величиной безразмерной. При вычислении выборочного (эмпирического) коэффициента корреляции теоре­тические величины заменяются их оценками.

Необходимо уточнить, что эта формула справедлива для генерального ко­эффициента корреляции (т.е. для коэффициента корреляции генеральной совокупно­сти данных). Чтобы рассчитать выборочный коэффициент корреляции, необходимо в этих формулах среднее значение по генеральной совокупности заменить на среднее по выборке, а стандартное отклонение по генеральной совокупности - на стандарт­ное отклонение по выборке. Коэффициент корреляции принимает значения в интервале

-1 < r < 1.

Коэффициент корреляции может быть равен -1 или 1, только если X и Y линейно зависят друг от друга. Величи­на |r|, близкая к 1, указывает, что зависимость между данными случайными величинами

почти линейная. Значения |r|, близкие к 0, означают, что связь между случайными ве­личинами либо слабая, либо не носит линейного характера. Таким образом, можно сде­лать вывод, что коэффициент корреляции характеризует степень приближения зависи­мости между случайными величинами к линейной функциональной зависимости.

Если распределение величин X и Y близко к нормальному, то корреляция между ними линейная и выборочный коэффициент корреляции r, является надежной оцен­кой генерального (теоретического) коэффициента .

Если r >0, то связь между переменными положительная (прямая). Иначе говоря, можно утверждать, что с точностью до случайных погрешностей величины X и Y од­новременно возрастают или убывают. При, r<0 связь отрицательная (обратная), т.е. с возрастанием одной величины другая имеет устойчивую тенденцию к убыванию.

Коэффициент корреляции часто используют и при связях, отличающихся от ли­нейных. Если |r| =0,8...0,9, то, независимо от реального вида связи, можно утвер­ждать, что она достаточно тесна для того, чтобы можно было исследовать ее форму с помощью коэффициента корреляции.

Коэффициент ранговой корреляции.

Ранговые коэффициенты корреляции могут использоваться для измерения связи как порядковых, так и количественных признаков. При этом анализ конкретных значений признаков не проводится, используется лишь информация об их взаим­ной упорядоченности - по типу "больше-меньше", которая не меняется при замене единиц измерения.

Пусть - значения признакаX для исследуемого объекта, а - значения признака Y для того же объекта. Каждое наблюдение над объектом характеризуется парой чисел (),(i= 1, 2,...,n). От чисел можно перейти к рангам от чисел - к рангам . Предположим, что сре­ди чисел х, и у, нет повторяющихся, т.е. ранжировки для обоих признаков - без связей.

Теперь каждое наблюдение характеризуется парой натуральных чисел (). Если признаки X и Y взаимосвязаны, то последовательность рангов в какой-то мере влияет на ранговую последовательность . Если признаки независимы, то порядок среди , случаен по отношению к порядку среди .

Близость двух рядов и характеризует коэффициент Спирмена.

Полная предсказуемость одной ранговой последовательности по другой возникает в двух случаях.

1. Когда последовательности полностью совпадают, при этом = 0 - наимень­шее возможное значение.

2. Когда последовательности полностью противоположны, т.е. при = 1 значение , при = 2 значение и т.д. В этом случае.

Коэффициент ранговой корреляции Спирмена вычисляется по формуле:

который по абсолютной величине ограничен единицей: -1 < < 1.

Существует опасность спутать понятия ста­тистической зависимости с более фундаментальным понятием причин­ной связи. Очень часто коэффициент корреляции неправильно интер­претируется, если значение r оказывается близким к +1 или -1, то отсюда делается вывод, что существует тесная зависимость между переменными. Исследователю следует с осторожностью относиться к резуль­татам статистического исследования. Поэтому, говоря об условности статистического исследования, следует, прежде всего, иметь в виду целенаправленность интерпретации полученных результатов. Говорить о пригодности прогностической модели можно, если только будет найден соответствующий причинно-следственный механизм, объясняющий (пусть даже косвенным образом) корреляционную зависимость.

Таким образом в данной лекции, были рассмотрены основные элементы корреляционного анализа, позволяющие сделать вывод о силе взаимосвязи между двумя переменными. В качестве визуального инструмента корреляционного анализа можно также использовать диаграмму рассеяния, с помощью которой двухмерные данные можно представлять графически, а затем анализировать. Современные программные средства содержат разнообразные средства для проведения корреляционного анализа, например в MS Excel можно воспользоваться функциями Correlation, Covariance, Rank и другими.

Литература:

1осн. [268-285], 5осн.[71-74], 6осн.[17-21], 3доп. [248-259], 4доп.[127-134], 6доп. [100-205].

Контрольные вопросы

1. Каковы основные статистические задачи корреляционного анализа статданных?

2. Как вычисляется коэффицент корреляции Пирсона?

3. Как вычисляется величина ковариации признаков?

4. Какова интерпретация значений коэффициента корреляции?

5. Каков смысл коэффициента ранговой корреляции?

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]