Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
stat_umk.doc
Скачиваний:
173
Добавлен:
13.03.2015
Размер:
10.64 Mб
Скачать

Тема 11. Множественная регрессия. Многомерная регрессионая модель. Фиктивные переменные. Кодирование значений качественных переменных. Мультиколлинеарность.

Множественная регрессия

Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии), которая позволяет прогнозировать значения одной переменной на основе значений двух или нескольких независимых переменных Уравнение линейной множест­венной регрессии имеет вид:

где - теоретические значения результативного признака, полученные путем под­становки соответствующих значений факторных признаков в уравнении регрессии; - значения факторных признаков; - параметры уравнения (коэффициенты регрессии).

При определении параметров модели методом наименьших квадратов минимизируется сумма квадратов остатков.

Рассматривая Qocm в качестве функции параметров , и выполняя математические преобразования (дифференцирование), получаем систему нормальных уравнений с т неизвестными (по числу параметров):

где п — число наблюдений, а т — число факторов в уравнении регрессии Решением этой системы уравнений находятся значения параметров являющихся коэффициентами искомого теоретического уравнения регрессии.

Фиктивные переменные

С помощью фиктивных переменных, или псевдопеременных, в регрессию вклю­чают качественные переменные, которые невозможно адекватно представить обыч­ными числовыми значениями.

Фиктивная переменная (или индикаторная переменная) - это количественная пе­ременная, которая принимает только два значения 0 и 1. Так, при исследовании зависимости величины заработной платы от стажа работы и пола сотрудника, пол как раз и является такой фиктивной переменной, которая может принимать значения, например, равной 1 для женщин и 0 для мужчин. Если качественная переменная представлена всего лишь двумя категориями (например, мужчины/женщины, годный/просроченный и т.д.), то ее можно предста­вить непосредственно как индикаторную переменную, присвоив одной категории значение 1, а другой - 0 (базовое значение).

Качественная переменная X с k-категориями кодируется с помощью (k - 1)-й ин­дикаторной переменной.

Рассмотрим пример определения трех индикаторных переменных с использованием категории стандартная упаковка в качестве базовой.

Качественная Индикаторные переменные

Вид упаковки

Пластиковая коробка (X1)

Пластиковый пакет (X2)

Бумажный пакет (X3)

Стандартная упаковка

0

0

0

Пластиковая коробка

1

0

0

Пластиковый пакет

0

1

0

Бумажный пакет

0

0

1

После того как категориальные переменные заменены на индикаторные, множест­венную регрессию можно рассчитывать в обычным способом (с помощью функции Regression в MS Excel).

Мультиколлинеарность - это коррелированность двух или не­скольких объясняющих переменных в уравнении регрессии. При на­личии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

1) небольшое изменение исходных данных приводит к сущест­венному изменению оценок регрессии;

2) оценки имеют большие стандартные ошибки, малую значи­мость, в то время как модель в целом является значимой (высокое значение R2).

Если при оценке уравнения регрессии несколько факторов ока­зались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой.

При наличии корреляции один из пары связанных между собой факторов исключается либо в качестве объясняющего фактора берет­ся какая-то их функция. Если статистически незначим лишь один фактор, то он должен быть исключен либо заменен другим показа­телем.

Для отбора факторов в модель регрессии и оценки их мультикол­линеарности можно использовать матрицу парных коэффициентов корреляции.

В модель регрессии включаются те факторы, которые более силь­но связаны с зависимой переменной, но слабо связаны с другими факторами.

Таким образом были рассмотрены принципы регрессионного анализа - статисти­ческого метода, который позволяет прогнозировать значения некоторой переменной на основе значений одной, двух или более переменных. Были рассмотрены принципы построения простой и множественной регрессии.

Современные статистические пакеты располагают разнообразными средствами проведения регрессионого анлиза, включая функции, кото­рая позволяют определить параметры уравнения регрессии, проверить качество урав­нения регрессии, а также провести проверку статистической значимости каждого ко­эффициента уравнения регрессии и определить их доверительные интервалы.

Литература:

1осн. [285-292], 2 осн. [49-57], 3 осн. [90-120], 6 осн. [55-58], 2доп. [81-87], 4 доп. [142-146], 6 доп. [206-214].

Контрольные вопросы

1. Каков смысл применения многофакторного регрессионного анализа?

2. Какой метод применяется при определении параметров множественной регрессии ?

3. Каковы особенности применения МНК при множественной регрессии ?

4. Каков смысл включения фиктивных переменных в регрессионное уравнение?

6. Что означает свойство мультиколлинеарности в уравнении регрессии?

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]