Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ведение в корреляционный и регрессионный анализ...doc
Скачиваний:
15
Добавлен:
20.09.2019
Размер:
507.39 Кб
Скачать

Корреляционный анализ

- математико-статистический метод выявления наличия корреляционной зависимости между компонентами многомерной случайной величины, определения силы и направления их связи.

Предпосылки корреляционного анализа

При построении корреляционных моделей исходят из выполнения условий случайности результатов наблюдений и нормальности закона распределения анализируемой многомерной генеральной совокупности.

Понятие "корреляционная зависимость"

Корреляционной зависимостью случайной величины Y от случайных величин X1, X2,…, Xk называется функциональная зависимость условного математического ожидания M(Y/x1,x2,…,xk) величины Y от значений x1, x2,…, xk переменных X1, X2,…, Xk:

M(Y/x1,x2,…,xk)=f(x1,x2,…,xk).

Функция f(x1,x2,…,xk), устанавливающая зависимость условного математического ожидания M(Y/x1,x2,…,xk) случайной величины Y от значений x1, x2,…, xk случайных переменных X1, X2,…, Xk, называется функцией регрессии случайной величины Y на случайный вектор (X1, X2,…, Xk).

Аналитическое представление корреляционной зависимости в виде M(Y/x1,x2,…,xk)=f(x1,x2,…,xk) называется уравнением регрессии случайной величины Y на случайный вектор (X1,X2,…,Xk).

Двумерная корреляционная модель

Исследуется зависимость между признаками X, Y. Предполагается, что распределение случайного вектора (X,Y) подчинено закону Гаусса: плотность совместного распределения случайных величин X, Y определяется формулой:

.

Параметры двумерного нормального распределения имеют следующий теоретико-вероятностный смысл:

μx - математическое ожидание величины X;

μy - математическое ожидание величины Y;

σx – среднее квадратическое отклонение величины X;

σy - среднее квадратическое отклонение величины Y;

ρ - коэффициент корреляции между признаками X, Y.

Коэффициент корреляции как мера стохастической связи

Если ρxy=0, то плотность распределения вектора (X,Y) приобретает вид:

,

т.е. φX,Y(x,y)=φX(x)φY(y), что означает независимость случайных величин X, Y.

Таким образом, в рамках корреляционного анализа понятия некоррелированности и независимости эквивалентны, что дает основание рассматривать коэффициент корреляции ρxy в качестве меры стохастической связи признаков X, Y.

Уравнение линейной парной регрессии

Из курса теории вероятностей известно, что

,

При этом условная плотность величины Y определяется на основании выражения:

.

Используя представления φX,Y(x,y), φX(x) для нормально распределенных случайных величин (X,Y), X и осуществляя соответствующее интегрирование, получаем уравнение линейной парной регрессии Y на X:

или ,

где - коэффициент регрессии Y на X.

Из вида уравнения линейной парной регрессии следует, что график функции регрессии есть прямая линия.

Замечание

В случае , т.е. некоррелированности X, Y, прямая линия регрессии Y на X параллельна координатной оси .

Положительный знак коэффициента корреляции означает, что прямые линии регрессии имеют в координатной плоскости положительный тангенс угла наклона, с увеличением (или уменьшением) значения X пропорционально в среднем возрастает (соответственно убывает) значение переменной Y.

Отрицательный знак коэффициента корреляции указывает на обратную тенденцию.

Парный коэффициент детерминации

Степень рассеяния значений Y относительно линии регрессии Y на X характеризуют условная дисперсия:

.

Расчет по этой формуле дает следующее выражение:

.

Квадрат коэффициента корреляции называется парным коэффициентом детерминации.