Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Регрессии и корреляции

.pdf
Скачиваний:
17
Добавлен:
12.04.2015
Размер:
884.32 Кб
Скачать

Основные типы связи между переменными

Практический интерес представляют вопросы типа: на сколько возрастёт прочность сплава, если увеличить % хрома в нем на заданную величину. С математической точки зрения речь идёт об описании взаимосвязи 2-х названных выше СВ.

Интуитивно ясно, что чем теснее связь между изучаемыми переменными, тем больше информации содержит одна из них относительно другой, тем точнее можно восстановить (спрогнозировать, аппроксимировать) неизвестное значение одной переменной по заданной величине другой.

Один предельный случай - точная, полная связь переменных в

детерминированных процессах: с изменением одной переменной вторая изменяется строго определённым образом (S = πR2).

Другой предел – полное отсутствие связи между независимыми переменными (изменение одной переменной никак не влияет на другую).

Основные типы связи между переменными

Связь между переменными называется детерминированной или функциональной, если значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной.

Детерминированные связи изучают в точных науках - математике, физике, химии. Например, связь между площадью круга и его радиусом, скоростью падения и высотой, давлением и объёмом газа и т.д.

Связь между случайными переменными называют статистической (стохастически детерминированной), если при изменении одной из них изменяется закон распределения другой.

Частный случай статистической связи, когда изменение одной переменной меняет только среднее значение другой (а закон распределения сохраняется), называется корреляционной связью. Корреляционная связь является свободной (неполной, неточной) и проявляется в виде общей тенденции при массовых испытаниях.

Природа статистической связи (зависимости)

Типичные примеры по изучению статистических зависимостей: восстановление возраста археологической находки по некоторым остаточным признакам; определение прочности бетона с помощью косвенных, то есть неразрушающих методов (типа эталонного молотка); прогнозирование денежных сбережений семьи по её доходу; медицинская диагностика; геологический прогноз и т.д.

При экспериментальном наблюдении реальных процессов все характерные для них переменные и связи между ними измеряются с некоторыми ошибками. Поэтому в теоретическом плане эти процессы описываются через

статистические зависимости случайных переменных.

Методология исследования статистических зависимостей

Поведение реального объекта представляют количественные показатели. х1, х2, …, хр – “входные” переменные, задающие условия функционирования объекта, это независимые, факторные, объясняющие переменные.

y1, y2,…,ym – “выходные” переменные, которые описывают результат функционирования объекта (зависимые, результирующие, объясняемые переменные). e1, e2,…, em – скрытые, не поддающиеся прямому измерению случайные остатки , которые отражают влияние на y1, y2,…,ym не учтенных “на входе” факторов

(в том числе и ошибок измерения). Это остатки, погрешности, ошибки модели .

случайные факторы, не поддающиеся учёту

объясняющие переменные

е1, е2,…,еm

Х1, Х2,…,Хр

механизм преобразования входных переменных в результирующие

результирующие переменные У1, У2,…,Уm

Общая формулировка задачи статистического исследования зависимостей

По результатам n измерений {(х(1), х(2),…,х(р)); (y(1), y(2),…,y(m) ) }i= 1,2,…,n исследуемых переменных на объектах наблюдений построить такую вектор-функцию f (x(1) , x(2) ,..., x( p) ) , которая наилучшим образом

позволяет найти (восстановить) значения результирующих переменных Y = (y(1), y(2),…,y(m)) по заданным значениям объясняющих переменных X = (х(1), х(2), …, х(р)). Основные вопросы при решении этой задачи:

1.Имеется ли вообще какая-либо связь между изучаемыми переменными, какова теснота этой связи.

2.Каков общий математический вид искомой связи, то есть общая структура математической модели.

3.Как провести конкретные оценки параметров модели, исходя из имеющихся экспериментальных данных.

4.Каковы деловые” (прогностические) качества построенной модели и границы её практического использования.

1. Корреляционный анализ (correlation – согласование,

связь, соотношение. Гальтон, 1888 г.)

Для равноправных переменных Х и Y (без разделения на зависимые и независимые) анализируется наличие и сила (теснота) связи между ними. При корреляционной связи Х и Y каждому определённому значению Х соответствует не одна величина Y, а совокупность с некоторым средним по совокупности значением Y = M(Y X) , именно это Y изменяется при возрастании или убывании Х (относительно своего среднего значенияХ ). По результатам корреляционного анализа статистическое заключение имеет вид: “корреляционная связь есть” или “корреляционной связи нет”.

корреляция ≠ причинно-следственной связи

Даже если в результате корреляционного анализа установлена тесная связь между X и Y, необходимо обосновать эту связь по существу, объяснить её причинный механизм. В противном случае её дальнейшее изучение (т.е. получение уравнения связи) теряет всякий смысл.

СОДЕРЖАНИЕ КОРРЕЛЯЦИОННОГО АНАЛИЗА

Основные вопросы, на которые должен ответить корреляционного анализ при изучении связи переменных между собой:

1.В соответствии с природой анализируемых переменных подобрать подходящий измеритель статистической связи между ними.

2.Оценить его числовое значение по имеющимся выборочным данным .

3.Проверить гипотезу о том, что полученное числовое значение измерителя связи статистически значимо отлично от нуля (т.е. оно не обусловлено неизбежными случайными колебаниями выборки, на основании которой он вычислен).

4.Проанализировать графически структуру связи между анализируемыми переменными.

1. Измерение линейной корреляции

Если изменение одной величины сопровождается изменением другой, то говорят о их корреляции или взаимосвязанном изменении (бытовое).

Линейную корреляцию случайных величин X и Y измеряют два показателя: 1. Ковариация, которая является абсолютной мерой взаимосвязи X и Y :

σxy = M((X - M(X)) ·(Y - M(Y)) = M(XY) – M(X)· M(Y) → cov (X,Y)

2. Коэффициент корреляции - относительная мера связи СВ X и Y:

ρ xy =

σ xy

=

σ xy

.

 

D ( X ) D (Y )

 

σ xσ y

 

Обе величины служат мерой линейной зависимости СВ.

2, 3: Оценка и проверка значимости коэффициента корреляции

Тесноту связи ρху между СВ х и у оценивают по выборке, эта оценка - СВ. Существенное отличие от нуля ρху – задача проверки гипотез:

H0 :ρxyρH1 : xy

=0,

0 .

По выборке объема n получаем выборочный коэффициент корреляции:

 

nxi yi xi yi

Н0 r

n 2

rxy =

nxi2 (xi )2 nyi2 (yi )2

t =

xy

 

 

2

 

 

 

1rxy

Если │t│ > t (α/2, ν=n-2), то гипотеза Н0 отвергается: коэффициент корреляции значим с вероятностью (1-α), между переменными x и y есть линейная корреляция. При │ rxy │ близком к единице линейная корреляция между x и y является тесной.

В случае: │t│ < t (α/2, ν=n-2), линейная корреляция между x и y отсутствует.

4. Графический анализ связи между Х и Y

 

 

 

ρ2 >ρ1

 

 

 

 

y

ρ1>0

y

y

ρ<0

y

ρ=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

х

 

х

х

х

y

ρ=0

y

ρ=0

 

 

 

 

х

х

 

Корреляция может быть ложной. Классический пример Чупрынова: прямая связь между числом пожарных команд и величиной убытков от пожаров. Другой пример:

в конце 20 века во всех развитых странах наблюдался рост производства ПК. Одновременно в тех же странах отмечен рост числа ВИЧ-инфицированных.

Примеры ложной корреляции, т.к. эти факторы не могут быть связаны по природе.

Поэтому даже при значимом ρху необходимо обосновать связь Х и Y по существу, т.е. объяснить её причинный механизм.