- •А.А. Кочетыгов
- •Содержание
- •1. Возможности и организация пакета spss
- •1.1.1. Выбор статистической процедуры
- •1.1.2. Настройки редактора данных
- •1.1.3. Панели символов
- •1.1.4. Построение и редактирование графиков
- •1.1.5. Окно просмотра
- •1.1.6. Редактор синтаксиса
- •1.1.7. Информация о файле
- •1.1.8. Справочная система
- •1.1.9. Настройки
- •1.2. Базовый модуль (spss Base)
- •1.3. Дополнительные модули
- •1.4. Ввод данных (Data Entry)
- •1.5. Представление результатов анализа
- •2. Практикум обработки данных на эвм
- •2.1. Описание показателей по выборке
- •2.2. Интервальные оценки параметров
- •2.3. Проверка гипотез по статистическим данным
- •2.4. Корреляционный и регрессионный анализы
- •2.5. Дисперсионный анализ
- •2.6. Ряды динамики
- •2.7. Индексный метод
- •2.8. Кластерный анализ
- •2.9. Двухфакторный дисперсионный анализ
- •2.10. Многомерный анализ
- •2.11. Множественная линейная регрессия
- •Variables Entered/Removedb
- •2.12. Дискриминантный анализ
- •3. Основные методы математической статистики
- •3.1. Корреляционный анализ
- •3.1.1. Исследование взаимосвязей количественных показателей
- •3.1.2. Исследование взаимосвязей качественных показателей
- •3.2. Дисперсионный анализ
- •3.2.1. Однофакторный дисперсионный анализ
- •3.2.2. Двухфакторный дисперсионный анализ
- •3.3. Регрессионный анализ
- •3.3.1. Линейная парная регрессия
- •3.3.2. Нелинейная парная регрессия
- •3.3.3. Множественная регрессия
- •3.4. Структурный подход к обработке многомерных данных
- •3.5. Метод главных компонент
- •3.6. Факторный анализ
- •3.7. Дискриминантный анализ
- •3.8. Кластерный анализ
- •3.9. Распознавание образов
- •4. Индивидуальные задания для исследований
- •Варианты задания
- •Варианты задания
- •Варианты задания
- •Варианты задания
- •Варианты задания
- •Библиографический список
- •Учебное издание
3.3.1. Линейная парная регрессия
Рассмотрим связь между одной причиной и следствием, то есть парную регрессию (однофакторную регрессионную модель). В этом случае исходными данными являютсязначений() фактораи соответствующие значения() результативной величины.
Предположим, что связь между и описывается линейной функцией
.
Для отдельного наблюдения имеем соотношение: , где и – коэффициенты регрессии; – независимая нормально распределенная случайная величина – остаток с нулевым математическим ожиданием и постоянной дисперсией.
Если , то переменныеХ и Y положительно коррелированы, если , то – отрицательно коррелированы;
Случайная величина отражает тот факт, что изменение будет неточно описываться изменением (присутствуют другие факторы, не учтенные в данной модели).
Оценка параметров уравнения парной регрессии
Для линейной регрессионной модели критерий метода наименьших квадратов запишется в виде:
Нахождение параметров регрессионного уравнения приводит к следующей системе линейных алгебраических уравнений:
или
Решая эту систему двух уравнений с двумя неизвестными, получаем
;
.
Можем записать
Такое решение может существовать только при выполнении условия
.
Это условие называется условием идентифицируемости модели и означает, что не все значения совпадают между собой. Принарушении этого условия все точки () лежат наодной вертикальной прямой .
Выражение для b можно записать и в другом виде
В случае системы двух нормальных случайных величин и линейной связи между ними имеем уравнения регрессиинаинасоответственно (рис.5.3.):
;
где – среднее значений величины при значении;
–среднее значений величины при значении;
Рис. 3.3.3. Графическое представление уравнений регрессии
Оценка качества линейного уравнения парной регрессии
Для оценки качества парной линейной регрессионной модели целесообразно:
1) вычислить и оценить значимость коэффициента корреляции;
2) проверить адекватность (значимость) всей модели регрессии;
3) оценить среднее квадратическое отклонение остатков ;
4) проверить значимость параметров а и b модели регрессии;
5) определить доверительные границы модели регрессии;
6) определить интервальные оценки параметров а и b модели регрессии.
Для проверки значимости модели парной линейной регрессии используется F–критерий Фишера:
.
В качестве меры точности парной линейной регрессии применяют стандартную ошибку
С помощью величины можно построить доверительные границы для уравнения регрессии.
Проведем анализ значимости параметров модели парной линейной регрессии .
Наблюдаемые значения , соответствующие данным,являются случайными. Случайными являются и рассчитанные по ним значения коэффициентов а и b. Надежность получаемых оценок а и b зависит от дисперсии случайных отклонений (ошибок).
По данным выборки эти отклонения и соответственно их дисперсия не оцениваются, а используются отклонения зависимой переменной от ее расчетных значений :
.
Так как предполагается, что ошибки (остатки) i нормально распределены, то среднеквадратическое отклонение ошибок используется для измерения вариации параметров регрессионной модели. Среднеквадратические отклонения коэффициентов определяются по формулам:
где – оценка математического ожидания (среднее значение) независимой переменной Х; – стандартная ошибка оценки регрессии.
Проверка значимости отдельных коэффициентов регрессии связана с определением наблюдаемых (расчетных) значений Т–критерия (Т–статистики) для соответствующих коэффициентов регрессии. Нулевая (проверяемая) гипотеза в данном случае имеет вид:
Наблюдаемые значения критерия и сравниваются с табличными (при двухсторонней критической области)
Если расчетное значение критерия превосходит его табличное значение при заданном уровне значимости (0.1; 0.05; 0.01), коэффициент регрессии считается значимым.
В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).
Для значимого уравнения регрессии представляет интерес построение интервальных оценок для параметра b и свободного члена а
; ,
где определяется по таблице распределения Стьюдента для уровня значимости и числа степеней свободы ν = п –2; – стандартные отклонения свободного члена и коэффициента регрессии соответственно; n – число наблюдений.