Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Казахский национальный технический университет им. К. И. Сатпаева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

stat_umk.doc

Скачиваний:

173

Добавлен:

13.03.2015

Размер:

10.64 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 3411 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Тема 8. Корреляционный анализ статданных. Коэффицент корреляции Пирсона. Коэффициент ранговой корреляции. Ложная и истинная корреляция Компьютерные технологии анализа.

Ранее мы рассмотривали главным образом такие статистические характеристики, как среднее значение и отклонение, которых обычно достаточно при работе с одномерными данными. Однако на практике существует достаточно большое количество явных и неявных взаимосвязей, например, между объемом выпускаемой предприятием продукции и затратами на производство, между объемом сбыта и уровнем дохода и т.д. Иначе говоря, на практике речь часто может идти о двухмерных данных и зависимостях между ними.

Существует два базовых инструмента, с помощью которых анализируются двухмерные данные: корреляционный анализ, позволяющий оценить степень взаимосвязи между двумя факторами (если такая взаимосвязь вообще существует), и регрессионный анализ, который показывает, как можно предсказать поведение одной из двух переменных или управлять ею с помощью другой.

Коэффициент корреляции Пирсона

Измерение, насколько тесная связь существует между двумя переменными, позволяет, прежде всего, убедиться в ее реальном наличии. Наиболее важным для практического использования является случай, когда связь между признаками X и Y линейная. Мера силы линейной связи признаков X и Y называется коэффициентом корреляции (коэффициент линейной корреляции Пирсона) и определяется по следующей формуле:

Величина =cov(X,Y) называется ковариацией случайных величин X и Y или корреляционным моментом. Для независимых случайных величин ковариация будет равна нулю. Однако равенство cov(X, Y) = 0 не означает в общем случае полной независимости величин X и Y, т.е. оно является необходимым, но не достаточным условием для независимости признаков.

Величина ковариации зависит от единиц измерения (изменяется, например, при переходе от метров к сантиметрам). Поэтому на практике чаще используют другой показатель - коэффициент корреляции, который является величиной безразмерной. При вычислении выборочного (эмпирического) коэффициента корреляции теоретические величины заменяются их оценками.

Необходимо уточнить, что эта формула справедлива для генерального коэффициента корреляции (т.е. для коэффициента корреляции генеральной совокупности данных). Чтобы рассчитать выборочный коэффициент корреляции, необходимо в этих формулах среднее значение по генеральной совокупности заменить на среднее по выборке, а стандартное отклонение по генеральной совокупности - на стандартное отклонение по выборке. Коэффициент корреляции принимает значения в интервале

-1 < r < 1.

Коэффициент корреляции может быть равен -1 или 1, только если X и Y линейно зависят друг от друга. Величина |r|, близкая к 1, указывает, что зависимость между данными случайными величинами

почти линейная. Значения |r|, близкие к 0, означают, что связь между случайными величинами либо слабая, либо не носит линейного характера. Таким образом, можно сделать вывод, что коэффициент корреляции характеризует степень приближения зависимости между случайными величинами к линейной функциональной зависимости.

Если распределение величин X и Y близко к нормальному, то корреляция между ними линейная и выборочный коэффициент корреляции r, является надежной оценкой генерального (теоретического) коэффициента .

Если r >0, то связь между переменными положительная (прямая). Иначе говоря, можно утверждать, что с точностью до случайных погрешностей величины X и Y одновременно возрастают или убывают. При, r<0 связь отрицательная (обратная), т.е. с возрастанием одной величины другая имеет устойчивую тенденцию к убыванию.

Коэффициент корреляции часто используют и при связях, отличающихся от линейных. Если |r| =0,8...0,9, то, независимо от реального вида связи, можно утверждать, что она достаточно тесна для того, чтобы можно было исследовать ее форму с помощью коэффициента корреляции.

Коэффициент ранговой корреляции.

Ранговые коэффициенты корреляции могут использоваться для измерения связи как порядковых, так и количественных признаков. При этом анализ конкретных значений признаков не проводится, используется лишь информация об их взаимной упорядоченности - по типу "больше-меньше", которая не меняется при замене единиц измерения.

Пусть - значения признакаX для исследуемого объекта, а - значения признака Y для того же объекта. Каждое наблюдение над объектом характеризуется парой чисел (),(i= 1, 2,...,n). От чисел можно перейти к рангам от чисел - к рангам . Предположим, что среди чисел х, и у, нет повторяющихся, т.е. ранжировки для обоих признаков - без связей.

Теперь каждое наблюдение характеризуется парой натуральных чисел (). Если признаки X и Y взаимосвязаны, то последовательность рангов в какой-то мере влияет на ранговую последовательность . Если признаки независимы, то порядок среди , случаен по отношению к порядку среди .

Близость двух рядов и характеризует коэффициент Спирмена.

Полная предсказуемость одной ранговой последовательности по другой возникает в двух случаях.

1. Когда последовательности полностью совпадают, при этом = 0 - наименьшее возможное значение.

2. Когда последовательности полностью противоположны, т.е. при = 1 значение , при = 2 значение и т.д. В этом случае.

Коэффициент ранговой корреляции Спирмена вычисляется по формуле:

который по абсолютной величине ограничен единицей: -1 < < 1.

Существует опасность спутать понятия статистической зависимости с более фундаментальным понятием причинной связи. Очень часто коэффициент корреляции неправильно интерпретируется, если значение r оказывается близким к +1 или -1, то отсюда делается вывод, что существует тесная зависимость между переменными. Исследователю следует с осторожностью относиться к результатам статистического исследования. Поэтому, говоря об условности статистического исследования, следует, прежде всего, иметь в виду целенаправленность интерпретации полученных результатов. Говорить о пригодности прогностической модели можно, если только будет найден соответствующий причинно-следственный механизм, объясняющий (пусть даже косвенным образом) корреляционную зависимость.

Таким образом в данной лекции, были рассмотрены основные элементы корреляционного анализа, позволяющие сделать вывод о силе взаимосвязи между двумя переменными. В качестве визуального инструмента корреляционного анализа можно также использовать диаграмму рассеяния, с помощью которой двухмерные данные можно представлять графически, а затем анализировать. Современные программные средства содержат разнообразные средства для проведения корреляционного анализа, например в MS Excel можно воспользоваться функциями Correlation, Covariance, Rank и другими.

Литература:

1осн. [268-285], 5осн.[71-74], 6осн.[17-21], 3доп. [248-259], 4доп.[127-134], 6доп. [100-205].

Контрольные вопросы

1. Каковы основные статистические задачи корреляционного анализа статданных?

2. Как вычисляется коэффицент корреляции Пирсона?

3. Как вычисляется величина ковариации признаков?

4. Какова интерпретация значений коэффициента корреляции?

5. Каков смысл коэффициента ранговой корреляции?

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 3411 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.03.20161.26 Mб57SRS_Fizika-2 (1).docx
#
23.03.201661.69 Кб12srs_mas_os.docx
#
06.11.201869.12 Кб5SRS_Univ_osv_Mosk_09.doc
#
13.03.2015375.27 Кб23standart.pdf
#
13.03.201593.7 Кб17standarttau.doc
#
13.03.201510.64 Mб173stat_umk.doc
#
13.03.201571.68 Кб7StudentBank.ru_71200.doc
#
25.05.2015683.22 Кб7Swift_Essential_Training.docx
#
25.05.2015144.38 Кб6Swift_Osnovy.doc
#
13.03.2015747.42 Кб55sydykov_sajasattanu.pdf
#
13.03.2015545.59 Кб5syrlyb_umk_polit_050702_050716_2010.pdf