Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции поТВ (140с).doc
Скачиваний:
18
Добавлен:
01.05.2019
Размер:
5.88 Mб
Скачать

Оценка значимости корреляционной связи

Коэффициент детерминации (и коэффициент корреляции) представляет собой меру тесноты связи выбранной формы. Ошибка неверного выбора вида уравнения регрессии (ошибка спецификации модели) может привести к совершенно неверным выводам относительно оценки тесноты реально существующей связи. В некоторых случаях, когда данные опыта даны в нескольких повторениях, можно найти меру чисто случайной изменчивости (дисперсию данных по повторениям – дисперсию "внутри групп"); тогда вычисляют более объективную меру тесноты связи – индекс детерминации (и корреляционное отношение). В отличие от коэффициента детерминации , при вычислении индекса детерминации не используются никакие предположения о форме корреляционной связи.

Однако параллельные наблюдения (повторения) имеют место только для планируемых опытов (активных экспериментов), что характерно для опытов физических, химических, биологических, там, где исследователь может контролировать условия опыта. В экономике же данные представляют собой наблюдения неконтролируемого процесса (пассивный эксперимент), поэтому варианты опыта почти никогда не повторяются.

Выше уже говорилось, что при понижении шкал измерения теряется какая-то часть информации, но выводы анализа становятся более общими, более объективными. При анализе парных зависимостей полезно перейти к дискретным шкалам измерения обеих переменных, т.е. произвести двойную группировку данных на несколько небольших интервалов по осям X, Y.

X1

X2

X3

Xp

l=m

Y1

m11

m21

m31

mp1

l1

v1

Y2

m12

m22

m32

mp2

l2

v2

Yq

m1q

m2q

m3q

mpq

lq

vq

k=m

k1

k2

k3

kp

n

u1

u2

u3

up

Если обозначить через X и Yj центры интервалов, то для каждой клетке таблицы разме­ром p  q можно подсчитать частоты mij , количества наблю­дений, попадающих в данную клетку. Все данные, попадающие в одну клетку таблицы с центром (X, Yj), считаются одинаковыми (это вносит в расчеты некоторую ошибку группировки). Сумма всех частот равна общему количеству данных = mij . Часто такую таблицу называют "корреляционной".

Теперь суммирование по всем наблюдениям должно учитывать частоты повторения одинаковых данных, например, [xy]  mijXiYj . Сравнительные расчеты коэффициента корреляции по исходным rxy и по сгруппированным rXY данным дают представление о величине ошибок группировок.

Переход к сгруппированным данным позволяет получить дополнитель­ную информацию о форме связи, получить более объективную меру тесноты существующей корреляционной связи и даже скорректировать наши предположения о возможном направлении причинно-следственных связей. Имея таблицу сгруппированных данных, можно для каждого значения Xi вычислить средние групповые , где – суммы частот по столбцам таблицы. Аналогично, для каждого значения Yj  можно вычислить средние групповые , где – суммы частот по строкам таблицы.

Теперь появилась возможность для каждой из сопряженных зависимостей вычислить индексы детерминации

,

которые показывают, какая часть полной изменчивости результативной переменной объясняется наличием корреляционной связи (произвольного типа, не обязательно линейного). Оба корреляционных отношения превышают абсолютную величину коэффициента корреляции (вычисленного по сгруппированным данным):

y/x , x/y > | rXY |.

Если одно из корреляционных отношений существенно превышает другое, то это является доводом в пользу выбора соответствующего направления причинно-следственных связей.

Кусочно-линейные графики средних групповых (X, ui) и (v, Yj) называются "эмпирическими линиями регрессии". Эти графики дают возможность визуально определить вид нелинейности и выбрать более подходящую форму связи, чем традиционную линейную форму, которая часто принимается по умолчанию.

С помощью дисперсионного анализа проверяется значимость наиболее тесной корреляционной связи. Если в результате дисперсионного анализа окажется, что корреляционная связь – незначимая, то незачем проводить регрессионный анализ связи заданной формы, она также будет незначимой.

Ниже приведена заполненная таблица дисперсионного анализа 2 для проверки значимости корреляционной связи у / х, причем суммы квадратов SSU = 2SSY и SS = (1 – 2)SSY выражены через общую сумму квадратов SSY и индекс детерминации .

Таблица дисперсионного анализа 2 для оценки значимости корреляционной связи

Источник изменчивости

Суммы квадратов

ЧСС

Средние квадраты

Дисперсионное отношение

Средние групповые

SSU = 2SSy

dfU = p – 1

MSU = SSU / dfU

F = MSU / MS

Случайность

SS = (1 – 2)SSy

df = n – p

MS = SS / df

Общая

dfy = n – 1

Получено следующее выражение для дисперсионного отношения Фишера

,

которое надо сравнивать с табличными значениями F0,05(dfUdf) и F0,01(dfUdf).

Если окажется, что F F0,05 , делаем вывод об отсутствии корреляционной связи (какой-угодно формы).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]