Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анализ Данных.docx
Скачиваний:
4
Добавлен:
14.09.2019
Размер:
49.44 Кб
Скачать

Показатели тесноты связи между двумя качественными переменными

Для измерения тесноты связи между сгруппированными признаками в таблице взаимной

Сопряженности могут бытть использованны такие показатели как коэфф ассоциации

Коэф контингенции(для таблицы 4-х полей) а так же коэф пирсона и чупрова для таблицы

Приминительно к таблицы 4-х полей к таблице которых можно обозначить abcd

Коэф Юла выражается следующей формулой Kас=ad-bc/ad+bc abcd-частоты

Используется если частоты не равны 0

Для того что б это избежать пирсон придумал коэф контингенции

Кконт=корень(a+b)(c+d)(a+c)(b+d)

Связь считается значимой и подтвержденной если модуль Кас <0.5 а Кконт>0.3

Теснота связи между двумя и более признаками измеряется между коэф взаимной сопряженности которые расчитываются на основе критерия Хи^2

Kn=КореньХи^2/Хи^+n

Кч=корень Хи^2/nКорень(k1-1)(k2+1)

n-объём выборки

показатели тесноты связи между 2-мя количественными признаками

связь между количественными признаками измеряется через их вариацию

измерить связь между 2-мя коррелируемыми величинами значит определить насколько

вариация результативного признака обусловлена

в качестве показателей тесноты связи используют

линейный коэф корелл коэф корелл рангов коэф конкордации

линейный коэф корелл

применяется в случае линейной зависимости между 2-мя кол-венными признакми

а если форма связи неопределена его расчитывают с целью получения ответа можно ли считать зависимость линейной

в отличии от Кф в линейном коэф корелл учитываются не только знаки отклонений от средней величины но и значения самих отклонений выраженные в единицах

среднего квадрата отклонения

tx=x-¯x/σx

линейный коф корелл обозначается r представляет собой среднюю величину

их произведений нормированных отклонений для х у

r=∑(x-¯x)(y-¯y)/nσxσy в таком виде эту формулу пишут

в данной формуле числитель деленный на n представляет собой среднее произведение отклонений значений 2-х признаков от их средней величины который наз ковариация

путем несложных преобразований можно получить другой вид записи

Проверка коэф корелл на значимость

интерпретируя значения коэф корелл следует иметь ввиду что он расчитан для ограниченного числа наблюдений и подвержен случайным колебаниям так же как и сами признаки на основе которых он расчитан т.е как любой выборочный показатель он содержит случайную ошибку и не всегда однозначно отражает реальную связь

между изучаемыми показателями для того что бы оценить значимость самого коэф корелл и соответственно реальность измеряемой связи необходимо расчитать среднюю

квадратическую ошибку

оценка значимости коэф корелл основанна на сопоставлении его значения с модулем

среднеквадратической ошибки

однако существуют особенности расчета средней квадратической ошибки в зависимости от числа наблюдений

если число наблюдений велико более 50 в таком случае среднеквадратическая ошибка

расчитывается σr=1-r2/корень из n

если он больше 3-х то связь есть

задавшись определенной вероятностью можно определить доверительные интервалы

r=+-t σr

t расчитывается по интегралу лапласа

если наблюдений мало то σr=кореннь из 1-r2/корень из n-2