Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математика вопросы 22-30.docx
Скачиваний:
1
Добавлен:
13.09.2019
Размер:
152.44 Кб
Скачать

13. Коэффициент корреляции Пирсона: содержательный смысл, формула расчета. Проблема устойчивости. Примеры применения в политологии (прошлый год)

Общие положения

  • Коэффициент корреляции: ; причем ковариация случайных величин и равна (разность математического ожидания произведения случайных величин и произведения математических ожиданий каждой величины)

  • Смысл: коэффициент корреляции показывает меру связи случайных величин;

  • Область значений коэффициента (допустимые значения): [-1;1];

    • отрицательные значения – отрицательная связь (монотонно убывающая);

    • если коэффициент корреляции равен -1 или 1, то тогда величины и линейно связаны, то есть таким и , что

    • для независимых случайных величин коэффициент корреляции (если он существует), равен нулю.

Коэффициент корреляции Пирсона

  • Расчетная формула:

  • Проверка равенства коэффициента нулю: есть ли основания полагать, что посчитанное нами число значимо отличается от 0.

    • надо посчитать граничные точки и - , между которыми будет меняться нулевой коэффициент корреляции.

    • (n – размер одной из выборок);

    • смотрим по таблицам Стьюдента и считаем , потом смотрим, куда попал коэффициент Пирсона;

  • Проблема: чувствительность к выбросам – нетипичным, резко выделяющимся наблюдениям.

  • Пример в политологии: связь политических предпочтений с чем угодно – пол, возраст, вес. Например, за Путина голосовали толстые

15. Изучение связи качественных признаков: анализ таблиц сопряженности. Внешний вид таблицы сопряженности. Статистические средства анализа таблицы сопряженности: критерий χ2 К.Пирсона. Примеры применения в политологии. (прошлый год)

  • Анализ таблиц сопряженности используется для выявления связи между двумя качественными признаками. У каждого из них есть конечное число «значений». (Например, для признака «пол» значения «мужской» и «женский»).

Таблица сопряженности:

A\B

  • Величины n в правом крайнем столбце – суммы значений n по строкам,

  • Величины n нижней строки таблицы – суммы по столбцам

  • В правом нижнем углу - общая сумма всех наблюдений, необходимая для подсчета вероятностей.

  • Смысл всего анализа - сопоставить ожидаемые (теоретические) вероятности и наблюдаемые (практические).

  • Алгоритм действий

  1. Выдвигаем гипотезу о независимости признаков:

2. Вычисляем ожидаемые частоты по формуле

(произведение сумм по строкам и сумм по столбцам; ожидаемые потому что при условии выполнения гипотезы)

3. Вычисляем наблюдаемую вероятность по формуле:

4. Мерой согласия опытных данных с теорией будет критерий хи-квадрат. Число степеней свободы считается по формуле , то есть для матрицы два на два, будет одна степень свободы

5. Считаем величину, по следующей формуле:

6. Полученную сумму (получается, что для каждой клеточки считаем мегадробь, а потом их суммируем) сравниваем с верхней процентной точкой (есть специальные таблицы). Если полученное значение больше, то гипотеза отвергается и у наших признаков есть связь, они зависимы.

  • Пример использования: есть ли связь между полом и голосованием за какого-то кандидата (в столбцы загоняем пол – мужской/женский, а кандидатов в строки – Путин, Медведев, Зюганов; в столбики забиваться будет количество людей, проголосовавших за одного из этих парней)

Вопрос №16.

Простая линейная регрессия: постановка задачи, графическая интерпретация. Метод наименьших квадратов и МНК-оценки коэффициентов модели. Коэффициент детерминации. Проверка гипотез о коэффициентах при предикторах и качестве модели. (Бочарова А)

Регрессия. 1862 г. Sir Francis Galton “Regression towards Mediocrity hereditary stature”.

Психометрика, биология, коэффициент корреляции.

i

yi

xi

1

y1

x1

2

y2

x2

3

y3

x3

n

yn

xn

Задача парной регрессии – описание изменчивости y с помощью изменчивости x.

Y – отклик, эндогенная переменная.

X – предиктор, регрессор, ковариата, фактор, экзогенная переменная.

Линейная регрессия:

yi = β0 + β1 * xi + εi – уравнение парной линейной регрессии (простой линейной регрессии).

[Например, x – уровень урбанизации, y – поддержка партии КПРФ] по регионам РФ.

Точки – регионы РФ.

Описать взаимосвязь x и y в среднем.

Понять, чему в среднем будет равен y, если x равен конкретному числу.

Задача – построить прямую, которая будет лежать максимально близко к точке, т.е. наименьшие отклонения.

yi = β0 + β1 * xi + εi

|________|

yi с крышкой= β0 + β1 * xi – все лежат на прямой, т.к. это уравнение прямой.

|

Это прогнозный отклик.

Мат. ожидание отклика при должном значении предиктора.

yi с крышкой = E (y|xi)

yi = yi с крышкой + ei

ei – ошибка, остаточный член, случайный член (графически это вертикальная палочка до прямой регрессии).

Наша цель – подобрать такие β0 и β1, чтобыпрямаялежала наиболее близко к точкам.

1821 – 1822гг. – МНК.

yi = β0 + β1 * (xi – x ср.) + εi

Для того чтобы перенести ось в точку среднего значения x из точки (0;0).

Лаплас предложил использовать модули, чтобы отрицательные значения не гасили положительные.

НО: этот метод тогда не стал востребованным, поскольку не умели дифференцировать в точке минимуму = |x|.

Тогда К. Гаусс предложил брать квадраты.

Ψ = ∑ ei2 → min

Ψ = ∑ (yi – β0 – β1 (xi – x ср.))2 → min

β0, β1

Ищем производную и приравниваемее к нулю, т.к. производная это тангенс угла наклона касательной к графику.

Решаем систему уравнений:

Ψβ0 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) = 0

Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0

Решаем уравнения по отдельности. Сначала первое.

Ψβ0 = ∑ (– 2 (yi – β0 – β1(xi – x ср.))) = 0

Сокращаем на минус два.

∑ yi – nβ0 – β1∑ (xi – x ср.) = 0

Учитываем, что β1∑ (xi – x ср.) = 0,

т.к. x ср. = ∑ xi /n,

∑ xi = nx ср.

∑ (xi – x ср.) = ∑ xi – x ср.n = x ср.n – x ср.n = 0

Тогда

∑ yi – nβ0 = 0

β0 мнк с крышкой = ∑ yi / n = уср.


МНК-оценка β0 – наша оценка значения β0 с помощью МНК, МНК-оценка первого коэффициента модели.

МНК-оценка β1

Решаем второе уравнение из системы.

Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0

Сокращаем на минус два.

∑ ((yi – y ср.) *(xi – x ср.) – β1 (xi – x ср.)2) = 0

∑ ((yi – y ср.) *(xi – x ср.)) – β1 ∑ (xi – x ср.)2 = 0

β1 мнк с крышкой = ∑ ((yi – y ср.) *(xi – x ср.)) / ∑ (xi – x ср.)2


β1 мнк с крышкой = R * (∑ (yi – y ср.)2 )0,5 / (∑ (xi – x ср.)2)0,5,

где R – коэффициент корреляции Пирсона.

Рассмотрим на примере.

Допустим,

β0 мнк с крышкой = 25

β1 мнк с крышкой = 0,7

yi = 25 + 0,7xi + exi

yi с крышкой = 25 + 0,7xi

Интерпретации МНК-оценок коэффициентов модели

Интерпретация β1 мнк с крышкой.

С ростом x на единицу y в среднем при прочих равных условиях увеличивается на 0,7.

Интерпретация β0 мнк с крышкой.

Если x = 0, то в среднем при прочих равных условиях y = 25.

Позволяет нам прогнозировать. И показать, насколько у зависим от x.

В классическом подходе мы рассматриваем xi как неслучайную, детерминированную величину, а yi как случайную.

За счет чего? За счет случайности ei.

Предположения Гаусса – Маркова на ei.

  1. ei – случайная величина, у которой E(ei) = 0.

yi = β0 + β1xi + ei,

где β0 + β1xi – условное мат. ожидание. И для этого среднее ei должно быть равно 0!

  1. ei – случайная величина, у которой D(ei) = ς12 = ς22

Предположение о гомоскедастичности остатков.

Гетероскедастичность – с ростом (убыванием) x, разброс остатков растет (убывает).

– с уменьшением x, уменьшается разброс. Есть зависимость остатков от предиктора, это значит, что мы в модели учли не все.

Гомоскедастичность – нет зависимости.

  1. Corr (ei; ej) = 0 для любого i≠j. Предположение об отсутствии АК.

  2. Corr (ei; xi) = 0.

Нет корреляции остатка и предиктора (т.е. с ростом x растет сам остаток или с уменьшением – уменьшается).

И еще одно предположение отдельное (не входит в набор Гаусса-Маркова):

5*. Ei ~ N (0; ς2). Это значит, что все значимое в модели мы учли.

Теорема Гаусса – Маркова.

Если выполняются четыре предположения, то МНК-оценки – наилучшие линейные несмещенные оценки.

Если мы предполагаем случайность величин оценок β0 мнк с крышкой и β1 мнк с крышкой, то они распределены нормально.

β0 мнк с крышкой ~ N (β0; ς2/n)

β1 мнк с крышкой ~ N (β1; ς2/∑ (xi – x ср.)2)

А β0 мнк и β1 мнк сами по себе константы и никакого распределения не имеют.

Насколько хороша модель?

Показателем качества модели является коэффициент детерминации.

[Может, сам x был неверно выбран? Т.е. не уровень урбанизации объясняет голосование за КПРФ, а что-то другое надо было брать].

Коэффициент детерминации – R2 = квадрат коэффициента корреляции Пирсона между x и y.

F – критерий.

H0: достаточно константы (модель плоха).