Оценка значимости корреляционной связи

Коэффициент детерминации (и коэффициент корреляции) представляет собой меру тесноты связи выбранной формы. Ошибка неверного выбора вида уравнения регрессии (ошибка спецификации модели) может привести к совершенно неверным выводам относительно оценки тесноты реально существующей связи. В некоторых случаях, когда данные опыта даны в нескольких повторениях, можно найти меру чисто случайной изменчивости (дисперсию данных по повторениям – дисперсию "внутри групп"); тогда вычисляют более объективную меру тесноты связи – индекс детерминации (и корреляционное отношение). В отличие от коэффициента детерминации , при вычислении индекса детерминации не используются никакие предположения о форме корреляционной связи.

Однако параллельные наблюдения (повторения) имеют место только для планируемых опытов (активных экспериментов), что характерно для опытов физических, химических, биологических, там, где исследователь может контролировать условия опыта. В экономике же данные представляют собой наблюдения неконтролируемого процесса (пассивный эксперимент), поэтому варианты опыта почти никогда не повторяются.

Выше уже говорилось, что при понижении шкал измерения теряется какая-то часть информации, но выводы анализа становятся более общими, более объективными. При анализе парных зависимостей полезно перейти к дискретным шкалам измерения обеих переменных, т.е. произвести двойную группировку данных на несколько небольших интервалов по осям X, Y.

	X₁	X₂	X₃	…	X_p	l=m
Y₁	m₁₁	m₂₁	m₃₁	…	m_p₁	l₁	v₁
Y₂	m₁₂	m₂₂	m₃₂	…	m_p₂	l₂	v₂
…	…	…	…	…	…	…	…
Y_q	m₁_q	m₂_q	m₃_q	…	m_pq	l_q	v_q
k=m	k₁	k₂	k₃	…	k_p	n
	u₁	u₂	u₃	…	u_p

Если обозначить через X_i и Y_j центры интервалов, то для каждой клетке таблицы размером p  q можно подсчитать частоты m_ij, количества наблюдений, попадающих в данную клетку. Все данные, попадающие в одну клетку таблицы с центром (X_i, Y_j), считаются одинаковыми (это вносит в расчеты некоторую ошибку группировки). Сумма всех частот равна общему количеству данных n = m_ij. Часто такую таблицу называют "корреляционной".

Теперь суммирование по всем наблюдениям должно учитывать частоты повторения одинаковых данных, например, [xy]  m_ijX_iY_j. Сравнительные расчеты коэффициента корреляции по исходным r_xy и по сгруппированным r_XY данным дают представление о величине ошибок группировок.

Переход к сгруппированным данным позволяет получить дополнительную информацию о форме связи, получить более объективную меру тесноты существующей корреляционной связи и даже скорректировать наши предположения о возможном направлении причинно-следственных связей. Имея таблицу сгруппированных данных, можно для каждого значения X_i вычислить средние групповые , где – суммы частот по столбцам таблицы. Аналогично, для каждого значения Y_j можно вычислить средние групповые , где – суммы частот по строкам таблицы.

Теперь появилась возможность для каждой из сопряженных зависимостей вычислить индексы детерминации

которые показывают, какая часть полной изменчивости результативной переменной объясняется наличием корреляционной связи (произвольного типа, не обязательно линейного). Оба корреляционных отношения превышают абсолютную величину коэффициента корреляции (вычисленного по сгруппированным данным):

_y/x, _x/y> |r_XY|.

Если одно из корреляционных отношений существенно превышает другое, то это является доводом в пользу выбора соответствующего направления причинно-следственных связей.

Кусочно-линейные графики средних групповых (X_i, u_i) и (v_j, Y_j) называются "эмпирическими линиями регрессии". Эти графики дают возможность визуально определить вид нелинейности и выбрать более подходящую форму связи, чем традиционную линейную форму, которая часто принимается по умолчанию.

С помощью дисперсионного анализа проверяется значимость наиболее тесной корреляционной связи. Если в результате дисперсионного анализа окажется, что корреляционная связь – незначимая, то незачем проводить регрессионный анализ связи заданной формы, она также будет незначимой.

Ниже приведена заполненная таблица дисперсионного анализа 2 для проверки значимости корреляционной связи у / х, причем суммы квадратов SSU = ²SSY и SS = (1 – ²)SSY выражены через общую сумму квадратов SSY и индекс детерминации .

Таблица дисперсионного анализа 2 для оценки значимости корреляционной связи

Источник изменчивости	Суммы квадратов	ЧСС	Средние квадраты	Дисперсионное отношение
Средние групповые	SSU = ²SSy	dfU = p – 1	MSU = SSU / dfU	F_= MSU / MS
Случайность	SS = (1 – ²)SSy	df = n – p	MS = SS / df
Общая		dfy = n – 1

Получено следующее выражение для дисперсионного отношения Фишера

которое надо сравнивать с табличными значениями F_0,05(dfU; df) и F_0,01(dfU; df).

Если окажется, что F_< F_0,05, делаем вывод об отсутствии корреляционной связи (какой-угодно формы).

<<< < Предыдущая 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 4344 / 5044 45 46 47 48 49 50 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.02.20152.76 Mб10Лаб№1_1.doc
#
11.02.2015290.82 Кб16Лаб№3_1.doc
#
15.09.201984.99 Кб2Лекція 2-зміни.doc
#
25.11.2019882.69 Кб1Лекции ИАЭ модуль 2.doc
#
08.11.2018244.74 Кб6Лекции по криминалистике.doc
#
01.05.20195.88 Mб18Лекции поТВ (140с).doc
#
11.02.20152.63 Mб23Лекции русс.doc
#
20.11.2019466.94 Кб4Лекции ТПСПП +.doc
#
13.11.2019456.55 Кб5лекции)ос)конспект.docx
#
08.11.2018250.37 Кб2лекциия по угол процессу.doc
#
14.08.201988.58 Кб2Лекция 1 OT.doc