- •2. Суть корреляционного и регрессионного анализа. Основные задачи решаемые методами анализа
- •3. Поле корреляции
- •4. Линейная регрессия и корреляция, смысл и оценка параметров. Сопряженные регрессионные прямые
- •5. Метод наименьших квадратов (мнк). Обобщенный мнк
- •6. Свойства оценок мнк. Проверка качества уравнения регрессии.
- •7. Проверка значимости коэффициента корреляции и коэффициента детерминации
- •8. Оценка существенности параметров линейной регрессии и корреляции.
- •9. Интервалы прогноза по линейному уравнению регрессии. Проверка значимости оценок параметров регрессии
- •10 Влияние неучтенных факторов на коэффициент корреляции
- •11. Распределение коэффициентов регрессии и корреляции
- •12. Множественная регрессия.
- •13. Линейная модель множественной регрессии. Проверка линейности модели
- •14. Спецификация модели. Коэффициент множественной детерминации. Коэффициент частной детерминации. Коэффициент частной детерминации между объясняющими переменными
- •15. Отбор факторов при построении множественной регрессии
- •16. Мультиколлениарность
- •17. Выбор формы уравнения регрессии
- •18. Оценка параметров уравнения множественной регрессии.
- •19. Обобщенный метод наименьших квадратов
- •20. Частные уравнения регрессии
- •21. Множественная корреляция.
- •22. Частная корреляция.
- •23. Оценка надежности результатов множественной регрессии и корреляции.
- •24. Нелинейные модели регрессии. Множественная нелинейная регрессия
- •25. Логарифмические модели
- •26. Полулогарифмические модели
- •33. Метод максимального правдоподобия
- •34. Метод линеаризации
- •35. Коэффициент детерминации. Коэффициент конкордации
- •36. Функция правдоподобия в математической статистике - это совместное распределение выборки из параметрического распределения как функция параметра.
- •37. Метод Бокса-Кокса
- •38. Коэффициент ранговой корреляции Спирмена.
- •39. Коэффициенты эластичности
- •40. Фиктивные переменные
- •41. Проверка значимости для коэффициента корреляции
- •42. Проверка значимости для коэффициента детерминации.
- •43. Проверка линейной регрессии
- •44. Коэффициент детерминации при простой линейной регрессии.
- •45. Коэффициент множественной детерминации
- •46. Коэффициент частной детерминации
- •47. Коэффициент детерминации между объясняющими переменными
- •48. Стандартные ошибки оценок
41. Проверка значимости для коэффициента корреляции
Как неоднократно отмечалось, для статистического вывода о наличии или отсутствии корреляционной связи между исследуемыми переменными необходимо произвести проверку значимости выборочного коэффициента корреляции. В связи с тем что надежность статистических характеристик, в том числе и коэффициента корреляции, зависит от объема выборки, может сложиться такая ситуация, когда величина коэффициента корреляции будет целиком обусловлена случайными колебаниями в выборке, на основании которой он вычислен. При существенной связи между переменными коэффициент корреляции должен значимо отличаться от нуля. Если корреляционная связь между исследуемыми переменными отсутствует, то коэффициент корреляции генеральной совокупности ρ равен нулю. При практических исследованиях, как правило, основываются на выборочных наблюдениях. Как всякая статистическая характеристика, выборочный коэффициент корреляции является случайной величиной, т. е. его значения случайно рассеиваются вокруг одноименного параметра генеральной совокупности (истинного значения коэффициента корреляции). При отсутствии корреляционной связи между переменными у и х коэффициент корреляции в генеральной совокупности равен нулю. Но из-за случайного характера рассеяния принципиально возможны ситуации, когда некоторые коэффициенты корреляции, вычисленные по выборкам из этой совокупности, будут отличны от нуля.
Могут ли обнаруженные различия быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий формирования отношений между переменными? Если значения выборочного коэффициента корреляции попадают в зону рассеяния, обусловленную случайным характером самого показателя, то это не является доказательством отсутствия связи. Самое большее, что при этом можно утверждать, сводится к тому, что данные наблюдений не отрицают отсутствия связи между переменными. Но если значение выборочного коэффициента корреляции будет лежать вне упомянутой зоны рассеяния, то делают вывод, что он значимо отличается от нуля, и можно считать, что между переменными у и х существует статистически значимая связь. Используемый для решения этой задачи критерий, основанный на распределении различных статистик, называется критерием значимости.
Процедура проверки значимости начинается с формулировки нулевой гипотезы H0. В общем виде она заключается в том, что между параметром выборки и параметром генеральной совокупности нет каких- либо существенных различий. Альтернативная гипотеза H1 состоит в том, что между этими параметрами имеются существенные различия. Например, при проверке наличия корреляции в генеральной совокупности нулевая гипотеза заключается в том, что истинный коэффициент корреляции равен нулю (Н0: ρ = 0). Если в результате проверки окажется, что нулевая гипотеза не приемлема, то выборочный коэффициент корреляции rух значимо отличается от нуля (нулевая гипотеза отвергается и принимается альтернативная Н1). Другими словами, предположение о некоррелированности случайных переменных в генеральной совокупности следует признать необоснованным. И наоборот, если на основе критерия значимости нулевая гипотеза принимается, т. е. rух лежит в допустимой зоне случайного рассеяния, то нет оснований считать сомнительным предположение о некоррелированности переменных в генеральной совокупности.
При проверке значимости исследователь устанавливает уровень значимости α, который дает определенную практическую уверенность в том, что ошибочные заключения будут сделаны только в очень редких случаях. Уровень значимости выражает вероятность того, что нулевая гипотеза Н0 отвергается в то время, когда она в действительности верна. Ясно, что имеет смысл выбирать эту вероятность как можно меньшей.
Пусть известно распределение выборочной характеристики, являющейся несмещенной оценкой параметра генеральной совокупности. Выбранному уровню значимости α соответствуют под кривой этого распределения заштрихованные площади (см. рис. 24). Незаштрихованная площадь под кривой распределения определяет вероятность Р = 1 — α. Границы отрезков на оси абсцисс под заштрихованными площадями называют критическими значениями, а сами отрезки образуют критическую область, или область отклонения гипотезы.
При процедуре проверки гипотезы выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствующим критическим значением. При этом следует различать одностороннюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи при статистическом исследовании. Двусторонняя критическая область необходима в том случае, когда при сравнении параметра выборки и параметра генеральной совокупности требуется оценить абсолютную величину расхождения между ними, т. е. представляют интерес как положительные, так и отрицательные разности между изучаемыми величинами. Когда же надо убедиться в том, что одна величина в среднем строго больше или меньше другой, используется односторонняя критическая область (право- или левосторонняя). Вполне очевидно, что для одного и того же критического значения уровень значимости при использовании односторонней критической области меньше, чем при использовании двусторонней. Если распределение выборочной характеристики симметрично,
Рис. 24. Проверка нулевой гипотезы H0
то уровень значимости двусторонней критической области равен α, а односторонней -(см. рис. 24). Ограничимся лишь общей постановкой проблемы. Более подробно с теоретическим обоснованием проверки статистических гипотез можно познакомиться в специальной литературе. Далее мы лишь укажем критерии значимости для различных процедур, не останавливаясь на их построении.
Проверяя значимость коэффициента парной корреляции, устанавливают наличие или отсутствие корреляционной связи между исследуемыми явлениями. При отсутствии связи коэффициент корреляции генеральной совокупности равен нулю (ρ = 0). Процедура проверки начинается с формулировки нулевой и альтернативной гипотез:
Н0: различие между выборочным коэффициентом корреляцииr и ρ = 0 незначимо,
Н1: различие междуrи ρ = 0 значимо, и следовательно, между переменнымиу и химеется существенная связь. Из альтернативной гипотезы следует, что нужно воспользоваться двусторонней критической областью.
В разделе 8.1 уже упоминалось, что выборочный коэффициент корреляции при определенных предпосылках связан со случайной величиной t, подчиняющейся распределению Стьюдента сf = п— 2 степенями свободы. Вычисленная по результатам выборки статистика
(8.38)
сравнивается с критическим значением, определяемым по таблице распределения Стьюдента при заданном уровне значимости α и f = п— 2 степенях свободы. Правило применения критерия заключается в следующем: если |t| >tf,а, то нулевая гипотеза на уровне значимостиα отвергается, т. е. связь между переменными значима; если |t| ≤tf,а, то нулевая гипотеза на уровне значимостиαпринимается. Отклонение значенияr от ρ = 0 можно приписать случайной вариации. Данные выборки характеризуют рассматриваемую гипотезу как весьма возможную и правдоподобную, т. е. гипотеза об отсутствии связи не вызывает возражений.
Процедура проверки гипотезы значительно упрощается, если вместо статистики tвоспользоваться критическими значениями коэффициента корреляции, которые могут быть определены через квантили распределения Стьюдента путем подстановки в (8.38)t=tf,а иr= ρ f,а:
(8.39)
Существуют подробные таблицы критических значений, выдержка из которых приведена в приложении к данной книге (см. табл. 6). Правило проверки гипотезы в этом случае сводится к следующему: если r> ρ f,а, то можем утверждать, что связь между переменными существенная. Еслиr≤rf,а, то результаты наблюдений считаем непротиворечащими гипотезе об отсутствии связи.