- •Раздел 11. Элементы математической статистики
- •11.1 Вариационный ряд и его статистические характеристики.
- •Статистическое распределение выборки
- •Геометрическое представление
- •Выборочные характеристики статистического распределения
- •Задачи для самостоятельного решения:
- •Контрольные вопросы:
- •11.2 Статистические оценки параметров распределения
- •11.3 Статистические методы обработки экспериментальных данных
- •Проверка гипотезы о соответствии эмпирического распределения нормальному закону
- •Отбрасывание «выскакивающих» вариант
- •Сравнение средних арифметических и дисперсий двух вариационных рядов
- •Регрессионный и корреляционный анализ
- •Задачи для самостоятельного решения
- •Контрольные вопросы
Регрессионный и корреляционный анализ
Часто можно установить определенную связь между вариациями по различным признакам. Например, чем больше размер животного, тем обычно больше его вес. Кроме того, известно, что в однородном стаде те коровы, в молоке которых больший процент жира, дают обычно меньший удой. Здесь связь не функциональная, а каждому значению одной величины соответствует множество возможных значений другой величины. Такого рода зависимость называют корреляционной.
Две случайные величины X и Y находятся в корреляционной зависимости, если каждому значению любой из этих величин соответствует определенное распределение вероятностей другой величины.
Условным математическим ожиданием (УМО) дискретной случайной величины Х называется сумма произведений возможных значений величины Х на их условные вероятности: , где - условная вероятность равенства , при условии, что
Для непрерывных величин:
где - плотность вероятности непрерывной с. в. Х при условии
УМО есть функция от y: которую называют функцией регрессии величины Х от величины Y. Аналогично определяется УМО случайной величины Y и функция регрессии Y на Х:
Уравнение называется уравнением регрессии Х на Y (Y на Х), а линия на плоскости, соответствующая этому уравнению, называется линией регрессии. Линия регрессии Y на Х (Х на Y) показывает, как в среднем зависит Y от Х (Х от Y).
Если Х, Y – независимые случайные величины, то математическое ожидание их произведения равно произведению их математических ожиданий M(XY)=M(X) M(Y), в противном случае – равенство не соблюдается.
Коэффициентом корреляции двух случайных величин Х и Y называют безразмерную величину:
,
характеризующую «меру связи» этих случайных величин. Легко видно, что выполняется соотношение: , поэтому в короткой записи:
Корреляционная зависимость между случайными величинами Х и Y называется линейной корреляцией, если обе функции регрессии f(y) и g(x) являются линейными. В этом случае обе линии регрессии являются прямыми, они называются прямыми регрессии.
Свойства коэффициента корреляции:
Если X, Y - независимые случайные величины, то коэффициент корреляции равен 0, r=0 (нет линейной корреляции между Х и Y).
Величина коэффициента корреляции по модулю не превосходит 1: (примем без доказательства). В частности, если то между случайными величинами Х и Y имеет место функциональная (линейная) зависимость.
Если <1, , то между Х и Y существует корреляционная зависимость. При этом, чем «теснее» связь между Х иY, тем ближе к 1.
Задача: Для десяти молодых сосен были произведены измерения общей длины ствола (Х, см) и длины его части без ветвей (Y, см). Результаты измерений представлены в таблице:
Х |
25 |
35 |
45 |
55 |
65 |
75 |
85 |
95 |
105 |
115 |
Y |
14 |
18 |
19 |
20 |
23 |
23 |
24 |
26 |
29 |
34 |
Вычислить выборочный коэффициент корреляции и найти выборочное уравнение прямой регрессии Y на Х.
Выборочный коэффициент корреляции вычисляется по формуле:
.
Для вычисления величин, входящих в формулу, составим вспомогательную таблицу, в которой результаты измерений, а также необходимые промежуточные значения, записаны столбцами:
xi |
yi |
|
( |
|
|
|
25 |
14 |
–45 |
2025 |
–9 |
81 |
405 |
35 |
18 |
–35 |
1225 |
–5 |
25 |
175 |
45 |
19 |
–25 |
625 |
–4 |
16 |
100 |
55 |
20 |
–15 |
225 |
–3 |
9 |
45 |
65 |
23 |
–5 |
25 |
0 |
0 |
0 |
75 |
23 |
5 |
25 |
0 |
0 |
0 |
85 |
24 |
15 |
225 |
1 |
1 |
15 |
95 |
26 |
25 |
625 |
3 |
9 |
75 |
105 |
29 |
35 |
1225 |
6 |
36 |
210 |
115 |
34 |
45 |
2025 |
11 |
121 |
495 |
700 |
230 |
0 |
8250 |
0 |
298 |
1520 |
В последней строке таблицы указаны суммы по столбцам.
1) Рассчитаем средневыборочные:
2).Рассчитаем исправленные дисперсии:
Откуда исправленные среднеквадратические:
3). Рассчитаем выборочное значение коэффициента корреляции:
Таким образом: у обследованных сосен имеет место сильная прямая корреляция между общей длиной ствола и длиной его части без ветвей.
4). Найдем выборочное уравнение прямой регрессии Y на Х. Это уравнение имеет вид: За приближенные значения принимают, соответственно: Подставляя в выборочное уравнение прямой регрессии Y на Х, получим: или Окончательно: - искомое уравнение прямой регрессии Y на Х.