- •4.Гетероскедастичность
- •Для всех наблюдений.
- •Обнаружение гетероскедастичности
- •Тест ранговой корреляции Спирмена
- •Тест Голдфелда—Квандта
- •Тест Уайта
- •Взвешенный метод наименьших квадратов
- •5. Автокоррелироавнность случайного члена. Автокорреляция и связанные с ней факторы
- •Обнаружение автокорреляции первого порядка. Критерий Дарбина—Уотсона
- •1, Модель парной регрессии
- •2. Многомерная линейная регрессия.
- •Мультиколлинеарность
- •Разный масштаб признаков
- •Частная корреляция
- •3. Фиктивные переменные
- •6.Оценивание систем одновременных уравнений
2. Многомерная линейная регрессия.
Имеется множество объектов и множество ответов . Также имеется набор вещественнозначных признаков . Введём матричные обозначения: матрицу информации , целевой вектор , вектор параметров и диагональную матрицу весов:
Алгоритм:
.
Оценим качество его работы на выборке методом наименьших квадратов:
, или, в матричных обозначениях,
.
Задача с произвольной матрицей весов легко приводится к единичной матрице весов заменой :
.
Таким образом, в дальнейшем будем рассматривать только задачу с единичными весами.
Найдём минимум по α:
.
Если , то можно обращать матрицу , где введено обозначение .
В таком случае функционал качества записывается в более удобной форме:
, где — проекционная матрица:
— вектор, являющийся проекцией на .
Теперь рассмотрим сингулярное разложение матрицы F:
.
В таких обозначениях:
, а так как , то в силу диагональности матрицы D.
А решение метода наименьших квадратов запишется в следующем виде:
А так как , то
Мультиколлинеарность
Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, мультиколлинеарность матрицы FTF, которую приходится обращать. Подобные проблемы возникают, когда среди признаков fj(x) есть почти линейно зависимые. Мультиколлинеарность матрицы определяется её числом обусловленности:
, где λ — собственные значения матрицы FTF.
Чем больше число обусловленности, тем ближе матрица FTF к вырожденной и тем неустойчивее обратная к ней матрица. Плохая обусловленность матрицы: λmin << λmax. Матрицу принято считать плохо обусловленной, если её число обусловленности превышает 103...106.
Последствия:
Разброс значений αj. Появляются большие положительные и большие отрицательные коэффициенты αj. По абсолютной величине коэффициента становится невозможно судить о степени важности признака fj . Коэффициенты утрачивают интерпретируемость.
Неустойчивость решения α* при (кажущейся) устойчивости Fα*. Малые изменения данных, например, шум или добавление нового объекта, могут сильно изменить вектор коэффициентов.
Отсюда следует опасность переобучения, так как снижается обобщающая способность алгоритма.
Для борьбы с мультиколлинеарностью применяются существуют методы:
Регуляризация. Накладываются дополнительные ограничения на норму вектора коэффициентов α. Примером могут служить гребневая регрессия или L1-регуляризация)
Преобразование признаков. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к методу главных компонент.
Отбор признаков. Производится явный перебор всевозможных подмножеств признаков. Для линейной регрессии удаётся строить эффективные методы, совмещающие перебор подмножеств с оптимизацией коэффициентов. К таким методам относятся, опять-таки, лассо Тибширани и ортогонализация Грама–Шмидта.