- •2. Суть корреляционного и регрессионного анализа. Основные задачи решаемые методами анализа
- •3. Поле корреляции
- •4. Линейная регрессия и корреляция, смысл и оценка параметров. Сопряженные регрессионные прямые
- •5. Метод наименьших квадратов (мнк). Обобщенный мнк
- •6. Свойства оценок мнк. Проверка качества уравнения регрессии.
- •7. Проверка значимости коэффициента корреляции и коэффициента детерминации
- •8. Оценка существенности параметров линейной регрессии и корреляции.
- •9. Интервалы прогноза по линейному уравнению регрессии. Проверка значимости оценок параметров регрессии
- •10 Влияние неучтенных факторов на коэффициент корреляции
- •11. Распределение коэффициентов регрессии и корреляции
- •12. Множественная регрессия.
- •13. Линейная модель множественной регрессии. Проверка линейности модели
- •14. Спецификация модели. Коэффициент множественной детерминации. Коэффициент частной детерминации. Коэффициент частной детерминации между объясняющими переменными
- •15. Отбор факторов при построении множественной регрессии
- •16. Мультиколлениарность
- •17. Выбор формы уравнения регрессии
- •18. Оценка параметров уравнения множественной регрессии.
- •19. Обобщенный метод наименьших квадратов
- •20. Частные уравнения регрессии
- •21. Множественная корреляция.
- •22. Частная корреляция.
- •23. Оценка надежности результатов множественной регрессии и корреляции.
- •24. Нелинейные модели регрессии. Множественная нелинейная регрессия
- •25. Логарифмические модели
- •26. Полулогарифмические модели
- •33. Метод максимального правдоподобия
- •34. Метод линеаризации
- •35. Коэффициент детерминации. Коэффициент конкордации
- •36. Функция правдоподобия в математической статистике - это совместное распределение выборки из параметрического распределения как функция параметра.
- •37. Метод Бокса-Кокса
- •38. Коэффициент ранговой корреляции Спирмена.
- •39. Коэффициенты эластичности
- •40. Фиктивные переменные
- •41. Проверка значимости для коэффициента корреляции
- •42. Проверка значимости для коэффициента детерминации.
- •43. Проверка линейной регрессии
- •44. Коэффициент детерминации при простой линейной регрессии.
- •45. Коэффициент множественной детерминации
- •46. Коэффициент частной детерминации
- •47. Коэффициент детерминации между объясняющими переменными
- •48. Стандартные ошибки оценок
11. Распределение коэффициентов регрессии и корреляции
Пусть выполняются следующие предпосылки: соотношение между переменными в генеральной совокупности выражается линейной регрессией;
возмущающая переменная и имеет нормальное распределение с математическим ожиданием и дисперсией ;
значения зависимой переменной yi при фиксированных значениях объясняющих переменных xk (k = 1, ..., т) распределены нормально или приблизительно нормально. Тогда оценки параметров регрессии bk (k = 1, ..., т) распределены нормально с математическим ожиданием и дисперсией . Отсюда следует, что величина
(2.1)
имеет стандартное нормальное распределение.
Поскольку дисперсия возмущающей переменной а также дисперсии оценок параметров регрессии неизвестны, вместо них используем выборочные дисперсии и . Формула (2.1)'приобретает вид:
(2.2)
Статистика (2.2) имеет t-распределение с п—т— 1 степенями свободы. Это следует учитывать особенно при малом объеме выборки.
Коэффициент корреляции вычисляется по результатам выборки. Поэтому его часто называют выборочным коэффициентом корреляции. Итак, коэффициент корреляции является функцией от выборки. Его значения, вычисленные по результатам различных выборок, отличаются друг от друга. Следовательно, выборочный коэффициент корреляции представляет собой случайную величину с определенным распределением вероятностей. Распределение коэффициента парной корреляции можно считать приближенно нормальным при выполнении следующих условий:
случайные переменные у и х имеют совместное нормальное или приближенно нормальное распределение;
корреляционная связь между переменными не очень тесная, т. е. коэффициент корреляции не слишком близок ± 1;
3) объем выборки достаточно велик.
Первое условие приводит к так называемой нормальной корреляции, при которой переменные соединены линейным соотношением. Плотность двумерного нормального распределения изображается в системе координат поверхностью, называемой поверхностью нормального распределения (см. рис. 20, а). На рис. 20, а и 20, б параметры генеральной совокупности обозначены греческими буквами. В сечении нормальной поверхности распределения плоскостями, параллельными координатной плоскости xOz, получаются кривые распределения случайной переменной х, соответствующие определенным значениям у. Аналогично в сечении нормальной поверхности распределения плоскостями, параллельными координатной плоскости yOz, получаются кривые распределения переменной у, соответствующие определенным значениям х. Кривые распределения отличаются друг от друга лишь своей крутизной. Они являются графическими изображениями условных распределений соответственно переменных х и у при фиксированных значениях у их. Если спроецировать на плоскость хОу средние значения условных распределений переменной х и соединить линией полученные точки, то образованная таким образом линия будет называться линией регрессии х на у. Сопряженная с ней линия регрессии у на х является множеством точек, соответствующим средним значениям условных распределений переменной у.
Пересекая поверхность распределения плоскостями, параллельными координатной плоскости хОу, в проекции на этой плоскости получаем семейство концентрических эллипсов различных размеров с одинаковой ориентацией главных осей и с общим центром в точке с координатами и . Их называют эллипсами рассеяния. Точка пересечения линий регрессии у на х и х на у совпадает с центром эллипсов рассеяния. Вследствие симметричности нормального распределения линии регрессии делят площадь эллипсов пополам (см. рис. 20, б).
Точное распределение выборочного коэффициента частной корреляции такое же, как и обычного коэффициента парной корреляции, вычисленного по выборке объема п — k, где k — число исключенных переменных. При перечисленных выше условиях его можно также аппроксимировать нормальным. Распределения коэффициента множественной корреляции, корреляционного отношения и индекса корреляции, напротив, даже при выборках сравнительно большого объема сильно отличаются от нормального.
По второму условию с увеличением интенсивности корреляционной связи сходимость распределения выборочного коэффициента корреляции к нормальному уменьшается. Распределение выборочного коэффициента корреляции становится все более асимметричным. Р. Фишер указал нормализующее преобразование случайной величины z, благодаря которому распределение г может быть приближенно приведено к нормальному:
, (2.3)
где In — (натуральный) логарифм с основанием е (е = 2,71828...); lg — десятичный логарифм (логарифм с основанием 10). При r = ± \ соответственно z = ± ∞. При r = 0 получаем z = 0.
Р. Фишер показал, что распределение величины z, отдельные реализации которой определяются соотношением (2.3), при п → ∞ асимптотически нормально с параметрами
(2.4)
(2.5)
Даже при небольших п приближение достаточно хорошее. Как видно из (2.5), стандартное отклонение зависит не от величины параметра р (коэффициента корреляции генеральной совокупности), а только от объема выборки п. С увеличением объема выборки становится меньше. Значения z-преобразования Фишера могут быть определены с помощью таблицы логарифмов. Обратный пересчет z в r проводят с помощью соотношения , (2.6)
где tanh z — гиперболический тангенс от аргумента z, его можно определить по таблице логарифмов либо с помощью соотношения
(2.7)
При невыполнении третьего условия, т. е. когда объем выборки n мал, распределение выборочного коэффициента корреляции сильно отличается от нормального, что видно из рис. 21. Если р ≠ 0, то с уменьшением объема выборки увеличивается асимметричность распределения r. Это осложняет проверку надежности выборочного коэффициента корреляции.
Если коэффициент корреляции р двумерного нормального распре¬деления равен нулю (р = 0), то в этом случае статистика
(2.8)
имеет t - распределение с n - 2степенями свободы.