Корреляция
Одним из важных приложений методов математической статистики является установление зависимости между двумя или более наблюдаемыми величинами. При этом наряду с раздельным анализом выборок, составленных из значений этих величин, возможен и совместный анализ.
Рассмотрим ситуацию, когда в результате эксперимента измеряется не одна, а сразу две случайные величины, скажем X и Y. Примерами здесь могут служить врачебный осмотр, где у каждого пациента измеряют рост и вес; измерение средней температуры воздуха в двух городах в течение определенного дня; проверка квалификации рабочих, когда фиксируются производительность и стаж работы.
Итак, исходными данными являются пары чисел (точки) (х1, у1), (х2, у2),… (хn, уn), где п — число испытаний. Наряду с анализом величин X и Y по отдельности представляет интерес исследование возможной зависимости между ними. Являются ли величины X и Y независимыми? Если же между ними имеется некоторая зависимость, то какова она?
Зависимость на рис. близка к линейной, т. е. точки заметным образом группируются вокруг некоторой прямой. В таких случаях говорят, что величины X и Y коррелированы. Существует простой способ определения степени коррелированности случайных величин. Он основан на вычислении коэффициента корреляции rху. Коэффициент корреляции обладает следующим свойством: -1 rху 1. При этом, чем ближе rху к нулю, тем слабее корреляция. Если rху = 0, то Х и У независимы. И наоборот, чем ближе rху к ±1, тем сильнее корреляция, т. е. зависимость между X и Y близка к линейной. Если rху = ±1, то точки (х1, у1) … (хn, уn) лежат на одной прямой.
Подчеркнем, что коэффициент корреляции отражает степень только линейной зависимости между величинами. Приведем формулы для вычисления rху:
Пример. Рассмотрим проблему, которая стоит перед администрацией некоторого крытого стадиона, где проходят матчи, концерты и др. Перед каждым таким мероприятием требуется оценить, какое количество зрителей придет. Можно предположить, что окончательное число зрителей сильно зависит от того, сколько билетов продано за день до мероприятия. Пусть опыт первых пяти мероприятий этого года таков:
-
Число билетов, проданных накануне (в тыс.)
3,5
4,6
5,8
4,2
5,2
Число зрителей (в тыс.)
8,1
9,4
11,3
6,9
9,7
Каков коэфф. корреляции между числом проданных накануне билетов и числом зрителей?
Примем число билетов за Х, а число зрителей за У. Найдем коэффициент корреляции.
= (3,5 + 4,6 + 5,8 + 4,2 + 5,2 ) = 23,3 = 4,66
= ( 8,1 + 9,4 + 11,3 + 6,9 + 9,7) = 45,4 = 9,08
: =(3,5)2 + (4,6)2 + (5,8)2 + (4,2)2 + (5,2)2 = 111,73
= 111,73 – (4,66)2 = 0,6304
: = ( 8,1)2 + (9,4)2 + (11,3)2 + (6,9)2 + (9,7)2 = 423,36
= 423,36 – (9,08)2 = 2,2256
: = 3,5· 8,1 + 4,6·9,4 + 5,8· 11,3 + 4,2· 6,9 + 5,2·9,7 = 216,55
= 216,55 - 4,66·9,08 = 0,9972
= Коэффициент корреляции близок к единице.
Этим обстоятельством можно воспользоваться для прогнозирования числа зрителей по имеющейся накануне информации.