- •Лекция 1. Основные понятия теории вероятности
- •Вопросы для самопроверки
- •Лекция 2. Теоремы о вероятностях
- •Теорема умножения вероятностей
- •Краткая классификация событий
- •Теорема о полной вероятностей
- •Теорема (формула) Байеса
- •Теорема сложения вероятностей
- •Принцип практической невозможности редких событий
- •Вопросы для самопроверки
- •Лекция 3. Случайные величины
- •Дискретная случайная величина
- •Числовые характеристики случайных величин
- •Характеристики положения
- •Характеристики разброса
- •Характеристики формы
- •Свойства математического ожидания
- •Свойства дисперсии
- •Правило "3-х сигм"
- •Вопросы для самопроверки
- •Лекция 4. Распределение Бернулли, Пуассона, Лапласа Распределение Бернулли
- •Биномиальные коэффициенты
- •Распределение Пуассона
- •Вопросы для самопроверки
- •Лекция 5. Распределение Лапласа
- •И нтегральная теорема Лапласа
- •Три основных формы интегральной теоремы Лапласа
- •Вопросы для самопроверки
- •Лекция 6. Непрерывная случайная величина
- •Нормальный закон распределения Гаусса
- •Показательный или экспоненциальный закон распределения
- •Квантили распределения
- •Вопросы для самопроверки
- •Лекция 7. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •Центральная предельная теорема
- •Композиция распределений случайных величин
- •Функции случайного аргумента
- •Вопросы для самопроверки
- •Лекция 8. Система случайных величин
- •Закон распределения дискретной двумерной случайной величины
- •Характеристики дискретной двумерной случайной величины
- •Закон распределения непрерывной двумерной случайной величины
- •Характеристики непрерывной двумерной величины
- •Двумерный нормальный закон
- •Вопросы для самопроверки
- •Лекция 9. Проблемы математической статистики
- •Способы составления выборочных подсовокупностей
- •Статистичекое оценивание
- •Вопросы для самопроверки
- •Лекция 10. Свойства статистических оценок
- •Оценка параметров распределения
- •Статистические критерии
- •Вопросы для самопроверки
- •Лекция 11. Критерии согласия Критерий согласия Пирсона
- •Критерий согласия Колмогорова – Смирнова
- •Интервальные оценки характеристик и параметров
- •Вопросы для самопроверки
- •Лекция 12. Проверка статистических гипотез Распределение Стьюдента
- •Интервальная оценка для математического ожидания
- •Проверка гипотезы о равенстве центров двух совокупностей
- •Сравнение двух дисперсий
- •Вопросы для самопроверки
- •Лекция 13. Дисперсионный анализ
- •Ранговый дисперсионный анализ Краскала–Уоллиса
- •Время появления реакции в 4-х группах
- •Ранжированнае данные
- •Дополнение к выводу формул Краскала–Уоллиса
- •Вопросы для самопроверки
- •Лекция 14. Регрессионный анализ
- •Метод наименьших квадратов (мнк)
- •Пример расчета мнк-оценок параметров
- •Оценка тесноты принятой формы связи.
- •Однофакторная линейная зависимость
- •Нелинейные двухпараметрические модели
- •Вопросы для самопроверки
- •Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
- •Оценка значимости корреляционной связи
- •Проверка адекватности модели
- •Коэффициент ранговой корреляции Спирмена
- •Вывод формулы для коэффициента ранговой корреляции Спирмена
- •Вопросы для самопроверки
- •Лекция 16. Линейный регрессионный анализ в стандартизованных переменных
- •Способы составления многофакторных моделей
- •Коэффициенты частной корреляции
- •Вывод формул для дисперсий коэффициентов регрессии и расчетных значений
- •Вопросы для самопроверки
Оценка значимости корреляционной связи
Коэффициент детерминации (и коэффициент корреляции) представляет собой меру тесноты связи выбранной формы. Ошибка неверного выбора вида уравнения регрессии (ошибка спецификации модели) может привести к совершенно неверным выводам относительно оценки тесноты реально существующей связи. В некоторых случаях, когда данные опыта даны в нескольких повторениях, можно найти меру чисто случайной изменчивости (дисперсию данных по повторениям – дисперсию "внутри групп"); тогда вычисляют более объективную меру тесноты связи – индекс детерминации (и корреляционное отношение). В отличие от коэффициента детерминации , при вычислении индекса детерминации не используются никакие предположения о форме корреляционной связи.
Однако параллельные наблюдения (повторения) имеют место только для планируемых опытов (активных экспериментов), что характерно для опытов физических, химических, биологических, там, где исследователь может контролировать условия опыта. В экономике же данные представляют собой наблюдения неконтролируемого процесса (пассивный эксперимент), поэтому варианты опыта почти никогда не повторяются.
Выше уже говорилось, что при понижении шкал измерения теряется какая-то часть информации, но выводы анализа становятся более общими, более объективными. При анализе парных зависимостей полезно перейти к дискретным шкалам измерения обеих переменных, т.е. произвести двойную группировку данных на несколько небольших интервалов по осям X, Y.
|
X1 |
X2 |
X3 |
… |
Xp |
l=m |
|
Y1 |
m11 |
m21 |
m31 |
… |
mp1 |
l1 |
v1 |
Y2 |
m12 |
m22 |
m32 |
… |
mp2 |
l2 |
v2 |
… |
… |
… |
… |
… |
… |
… |
… |
Yq |
m1q |
m2q |
m3q |
… |
mpq |
lq |
vq |
k=m |
k1 |
k2 |
k3 |
… |
kp |
n |
|
|
u1 |
u2 |
u3 |
… |
up |
|
|
Теперь суммирование по всем наблюдениям должно учитывать частоты повторения одинаковых данных, например, [xy] mijXiYj . Сравнительные расчеты коэффициента корреляции по исходным rxy и по сгруппированным rXY данным дают представление о величине ошибок группировок.
Переход к сгруппированным данным позволяет получить дополнительную информацию о форме связи, получить более объективную меру тесноты существующей корреляционной связи и даже скорректировать наши предположения о возможном направлении причинно-следственных связей. Имея таблицу сгруппированных данных, можно для каждого значения Xi вычислить средние групповые , где – суммы частот по столбцам таблицы. Аналогично, для каждого значения Yj можно вычислить средние групповые , где – суммы частот по строкам таблицы.
Теперь появилась возможность для каждой из сопряженных зависимостей вычислить индексы детерминации
,
которые показывают, какая часть полной изменчивости результативной переменной объясняется наличием корреляционной связи (произвольного типа, не обязательно линейного). Оба корреляционных отношения превышают абсолютную величину коэффициента корреляции (вычисленного по сгруппированным данным):
y/x , x/y > | rXY |.
Если одно из корреляционных отношений существенно превышает другое, то это является доводом в пользу выбора соответствующего направления причинно-следственных связей.
Кусочно-линейные графики средних групповых (Xi , ui) и (vj , Yj) называются "эмпирическими линиями регрессии". Эти графики дают возможность визуально определить вид нелинейности и выбрать более подходящую форму связи, чем традиционную линейную форму, которая часто принимается по умолчанию.
С помощью дисперсионного анализа проверяется значимость наиболее тесной корреляционной связи. Если в результате дисперсионного анализа окажется, что корреляционная связь – незначимая, то незачем проводить регрессионный анализ связи заданной формы, она также будет незначимой.
Ниже приведена заполненная таблица дисперсионного анализа 2 для проверки значимости корреляционной связи у / х, причем суммы квадратов SSU = 2SSY и SS = (1 – 2)SSY выражены через общую сумму квадратов SSY и индекс детерминации .
Таблица дисперсионного анализа 2 для оценки значимости корреляционной связи
Источник изменчивости |
Суммы квадратов |
ЧСС |
Средние квадраты |
Дисперсионное отношение |
Средние групповые |
SSU = 2SSy |
dfU = p – 1 |
MSU = SSU / dfU |
F = MSU / MS |
Случайность |
SS = (1 – 2)SSy |
df = n – p |
MS = SS / df |
|
Общая |
|
dfy = n – 1 |
|
|
Получено следующее выражение для дисперсионного отношения Фишера
,
которое надо сравнивать с табличными значениями F0,05(dfU; df) и F0,01(dfU; df).
Если окажется, что F < F0,05 , делаем вывод об отсутствии корреляционной связи (какой-угодно формы).