Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Регрессии и корреляции

.pdf
Скачиваний:
17
Добавлен:
12.04.2015
Размер:
884.32 Кб
Скачать

Заключение по результатам корреляционного анализа

Если коэффициент корреляции оказался значимым, то возможны следующие варианты статистического заключения:

rxy > 0 → между Х и У существует положительная линейная связь; rxy < 0 → между Х и У существует отрицательная линейная связь; rxy = 0 → между Х и У отсутствует линейная связь.

Теснота установленной связи определяется по шкале Чеддока:

׀rxy ׀

0,1 – 0,3

0,3 – 0,5

0,5 – 0,7

0,7 – 0,9

0,9 – 0,99

 

 

 

 

 

 

Теснота связи

слабая

умеренная

заметная

высокая

весьма

высокая

 

 

 

 

 

Заключение по результатам корреляционного анализа

1.Коэффициент корреляции ρху измеряют силу линейной статистической связи Х и Y , эта связь симметрична относительно обеих переменных.

2.Положительный коэффициент корреляции означает, что с увеличением (снижением) Х наблюдается тенденция к увеличению (снижению) значений Y. Напротив, ρху < 0 говорит о противоположном: с ростом (снижением) Х наблюдаем тенденцию к снижению (росту) значений Y.

3.Значение │ρxy│=1 подтверждает чисто функциональную, т.е. полную зависимость между Х и Y. Напротив, значение ρху =0 свидетельствует об их полной взаимной независимости.

4.Коэффициент корреляции вместе со средними и дисперсиями для случайных величин Х и Y составляет те пять параметров, которые дают исчерпывающие сведения о стохастической зависимости Х и Y (так как однозначно определяют их двумерный закон распределения).

Выявление корреляционной связи в управляемом эксперименте

Для дискретных Х и Y проведены многократные наблюдения, по результатам которых построена корреляционная таблица вида

Х/Y

x1

x2

xk

ny

 

 

 

 

 

 

y1

n11

n21

nk1

ny1

y2

n12

n22

nk2

ny2

 

 

 

 

 

 

ym

n1m

n2m

nkm

nym

nx

nx1

nx2

nxk

N

Обозначения в корреляционной таблице:

Экспериментальные значения xi и yj расположены по возрастанию; nij - абсолютные частоты, то есть количество пар (xi , yj) в выборке;

nxi (последняя строка) – количество появлений в выборке значения xi , не зависимо от того, с каким yj в паре оно появилось, то есть

nxi = n i1 +n i2+…+n im – сумма частот столбца для xi .

Аналогично, nyj (последний столбец) - суммы частот для строки yj: nyj = n 1j+n 2j+…+n kj .

Тогда N = Σ nxi = Σ nyj – объём выборки (в правом нижнем углу ).

Корреляционная таблица содержит в систематизированном виде всю информацию, полученную при наблюдении величин Х и Y.

Процедура определения вида эмпирической корреляционной связи: 1. Для каждого значения xi выпишем эмпирическое распределение Y:

 

 

y1

 

y2

 

 

 

ym

 

 

 

 

ni1

 

ni2

 

 

 

nim

yxi =

ni1 y1 +ni2 y2 +...+nim ym

Отсюда - условное среднее Y при X = xi:

ni1 +ni2 +...+nim

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Выполнив процедуру 1) для всех xi, построим таблицу вида:

 

 

 

 

 

 

 

 

 

 

 

 

 

Х

x1

x2

 

xk

 

 

 

 

 

Y|x

yx1

yx2

 

yxk

 

 

 

 

 

 

 

 

 

 

3. Строим корреляционное поле по точкам (xi , yx i ) и на его основе, т.е. по выборочным данным выдвигаем гипотезу о форме корреляционной зависимости Y от Х в генеральной совокупности .

Введение в регрессионный анализ

Если в результате корреляционного анализа надёжно установлена связь одной зависимой переменной Y и независимых переменных X = (х(1)(2), …, х(р)), то форму этой связи описывают с помощью регрессионной модели. Её суть:

1.Факт корреляционной зависимости Х и Y проявляется в том, что каждому набору независимых переменных соответствует своё среднее значение зависимой переменной. Такая зависимость записывается M(Y|x1, x2,…, xр) = f(x1,x2,…, xр). f(x1, x2,…, xр) показывает как независимые переменные влияют на зависимую переменную “в среднем” и называется функцией регрессии У на Х=(x1, x2,…, xр).

2.Реальное значение зависимой переменной не всегда совпадают с её условным математическим ожиданием, поэтому в модель вводят случайное слагаемое Е(Х).

В результате связь между зависимой и независимыми переменными имеет вид:

Y = M(Y|x1, x2,…, xр)+Е(Х) = f(x1, x2,…, xр)+Е(x1, x2,…, xр).

Это и есть регрессионная модель.

Отметим, что природа случайной компоненты Е(x1, x2,…, xр ) и характеристики её распределения никак не связаны со структурой функции регрессии f(x1, x2,…, xр ).

Введение в регрессионный анализ

Регрессионная модель предлагает вместо неизвестных истинных значений Y(Х) использовать значения функции регрессии f(X).

Такая “подмена” тем успешней (точнее), чем лучше статистические свойства остатков. А именно, обусловленные конкретной моделью остатки Е(Х) должны в каждой заданной точке Х

подчиняются нормальному закону распределения;

иметь нулевые средние;

дисперсия (разброс) остатков не должна изменяться вдоль Х;

остатки должны быть статистически независимыми в разных точках Х.

Подтверждение перечисленных свойств остатков свидетельствует, что регрессионная модель построена оптимально: функция регрессии адекватно описывает как объясняющие переменные

влияют на зависимую переменную “в среднем”, при этом остатки можно квалифицировать как “шум” или помехи.

Основные этапы регрессионного анализа

Для надёжно связанных показателей

разделить показатели на зависимые (результативные, объясняемые) и независимые (факторные, объясняющие);

описать форму зависимости между зависимыми и независимыми признаками, т.е. построить функцию регрессии;

оценить степень влияния отдельных факторов на результат, выделить по возможности управляющие факторы;

оценить надежность и адекватность регрессионной модели в ходе её проверки на реальных статистических данных (т.е. подтвердить оптимальные свойства остатков, ошибок).

У

f(x)

х1

х2

х3

х

 

Схема эксперимента под модель парной регрессии

1.Значения изучаемой случайной величины У (объясняемый показатель) замеряют в ходе повторных экспериментов при каждом фиксированном значении фактора (объясняющей переменной) Х = {х1, х2, х3…}. На рисунке – точки.

2.Вычисляют M(Y|x) = Yср(х) для х1, х2, х3… . На рисунке – прямоугольнички.

3.Аппроксимируют набор Yсрi) подходящей функцией регрессии f(x).

ПАРНАЯ РЕГРЕССИЯ

Постановка задачи: по результатам наблюдений (xi, yi), i = 1,…, n двух случайных переменных Х и Y надёжно установлена их статистическая линейная связь. Требуется получить уравнение связи между этими переменными в рамках регрессионного подхода.

Модель парной регрессии имеет вид:

Y= M(Y│x) + ε(х) = f(x) + ε(х),

x– независимая (объясняющая, факторная), Y – зависимая (объясняемая, результативная) переменные, ε(х) – аддитивный случайный фактор.

Цель –оценить влияние объясняющей переменной на объясняемую “в среднем” , то есть построить функцию регрессии f(х).

Процедура:

1.подбор общего вида функции регрессии (спецификация);

2.оценка параметров функции регрессии (параметризация);

3.анализ статистических свойств случайных остатков (адекватность модели).