7.7. Отбор факторов при построении модели множественной регрессии. Мультиколлинеарность

При построении модели множественной регрессии отбор наиболее существенных факторов, воздействующих на результативный признак, проводится на основе качественного, теоретического анализа в сочетании с использованием статистических приемов. Для получения надежных оценок в модель не следует включать слишком много факторов. Сначала на основании содержательного анализа составляется перечень показателей, которые предполагается включить в модель. Затем проводится сбор статистической информации и предварительный анализ данных. После чего осуществляется сравнительная оценка и отсев части факторов. Это достигается анализом парных коэффициентов корреляции и оценкой их значимости, для чего составляется матрица парных коэффициентов корреляции, измеряющих тесноту связи каждого из факторов с результативным признаком и между собой.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели стоимости недвижимости принадлежность к определенному району задается суммой баллов).

2. Каждый фактор должен быть достаточно тесно связан с результатом (т. е. коэффициент парной линейной корреляции между фактором и результатом должен существенно отличаться от нуля).

3. Факторы не должны сильно коррелировать друг с другом, тем более находиться в строгой функциональной связи.

После того как с помощью корреляционного анализа выявлено наличие статистически значимых связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа.

Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т.е. решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Для экономических показателей это выполняется не всегда.

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений. В этом случае определитель матрицы (Х^ТХ) близок к нулю и поэтому уравнения практически нельзя решить.

Наличие мультиколлинеарности приводит к получению ненадежных оценок. Например, небольшое изменение исходных данных (добавление или изъятие наблюдений) приводит к существенному изменению оценок коэффициентов модели. Оценки коэффициентов имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения. Большинство оценок оказываются статистически незначимо отличающимися от нуля, а то же время модель в целом является значимой при проверке с помощью F-статистики).

Наиболее распространенным способом определения наличия или отсутствия мультиколлинеарности является анализ матрицы коэффициентов парной корреляции. Явление мультиколлинеарности в исходных данных считают установленным, если коэффициент парной корреляции между двумя переменными больше 0,8. Еще один способ установления мультиколлинеарности - это исследование матрицы (Х^ТХ). Близость определителя матрицы (Х^ТХ) к нулю свидетельствует о наличии мультиколлинеарности.

Наиболее распространенным методом устранения или уменьшения мультиколлинеарности является исключение из двух сильно связанным объясняющих переменных одной из переменной. Вопрос о том, какую переменную исключить, а какую оставить, решают исходя из экономических соображений. Если ни одной из переменных нельзя отдать предпочтение, оставляют ту, которая имеет больший коэффициент корреляции с зависимой переменной.

Другим приемом устранения или уменьшения мультиколлинеарности – является отбор наиболее существенных переменных на основе стратегии пошагового отбора, реализованного в ряде алгоритмов построения множественной регрессии (метод включения, метод исключения факторов).

Мультиколлинеарность часто присутствует при построении регрессии по временным рядам. Причиной является общий временной тренд у нескольких независимых переменных, относительно которого они совершают малые колебания. В этом случае рекомендуется преобразовать данные, исключив тренд, а затем определить параметры регрессии по остаткам.

При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов в 6-7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения.

<<< < Предыдущая 23 24 25 26 27 28 29 30 31 32 33 34 3536 / 4736 37 38 39 40 41 42 43 44 45 46 47 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.07.2019163.96 Кб19устав.rtf
#
09.09.2019339.46 Кб4УСТАЛОСТЬ РПР.doc
#
08.12.2018766.98 Кб10Устный ответ по истории.doc
#
08.05.20192.18 Mб4уч пособие ук по изуч и мет КР фин мен 2009...doc
#
16.03.201636.35 Кб56Уч_пособ_СМ в примерах и задачах.doc
#
10.05.201538.43 Mб224Учебн пособие печать рек ббк.doc
#
10.05.20154.92 Mб48учебник лексика.pdf
#
26.11.20192.41 Mб227Учебник Проектирование карьеров Анистратов.docx
#
04.11.20184.31 Mб8УЧЕБНИК Экономическая теория.DOC
#
16.03.20161.64 Mб343Учебное пособие (гигиена).doc
#
14.11.2019990.72 Кб16Учебное пособие по дисциплине Микроэкономика (с...doc