- •Министерство образования и науки Республики Казахстан
- •1. Учебная программа дисциплины – Syllabus
- •1. 1. Данные о преподавателях:
- •1.1 Данные о дисциплине:
- •Выписка из учебного плана
- •1.5. Краткое описание дисциплины
- •1.6. Перечень и виды заданий и график их выполнения:
- •Виды заданий и сроки их выполнения
- •1.7. Список литературы
- •1.8. Контроль и оценка знаний
- •Распределение рейтинговых баллов по видам контроля
- •Календарный график сдачи всех видов контроля
- •Оценка знаний студентов
- •2. Содержание Активного раздаточного материала
- •2.1 Тематический план курса составляется в виде таблицы, где указываются наименование темы и количество академических часов, предусмотренных для каждой темы. Тематический план курса
- •2.2 Конспект лекционных занятий
- •Глава 1. Основные понятия и определения статистики
- •Тема 2. Показатели описательной статистики. Среднее, дисперсия, стандартное отклонение, эксцесс, асимметрия, интервалы. Компьютерные технологии получения дескриптивной статистики.
- •Глава 2. Выборки.
- •Тема 5. Анализ одной выборки. Анализ однородности выборки. Доверительные интервалы для среднего. Доверительные интервалы для средних выборок. Компьютерные технологии анализа.
- •Тема 6. Анализ двух выборок. Выявление достоверности различий. Параметрические и непараметрические методы анализа выборок. Компьютерные технологии анализа одной выборки.
- •Глава 3. Анализ статданных.
- •Тема 7. Дисперсионный анализ статданных. Однофакторный дисперсионный анализ статистических данных. F- тест для для дисперсий. Компьютерные технологии анализа.
- •Тема 8. Корреляционный анализ статданных. Коэффицент корреляции Пирсона. Коэффициент ранговой корреляции. Ложная и истинная корреляция Компьютерные технологии анализа.
- •Глава 4. Регрессионный анализ.
- •Тема 9. Регрессионный анализ статданных. Простая линейная регрессии. Оценивание параметров линейной регрессиии методом наименьших квадратов, коэффициент детерминации.
- •Тема 10. Оценка существенности параметров линейной регрессии. Оценка качества регрессии f-критерий Фишера, t-статистика. Проверка значимости параметров регрессии. Понятие нелинейной регрессии.
- •Тема 11. Множественная регрессия. Многомерная регрессионая модель. Фиктивные переменные. Кодирование значений качественных переменных. Мультиколлинеарность.
- •Глава 5. Анализ временных рядов.
- •Тема 12. Анализ статданных в виде временных рядов. Временные ряды и их характеристики. Аддитивная и мультипликативная модель. Декомпозиция временного ряда.
- •Тема 13. Анализ и получение тренда. Методы аналитического выравнивания. Метод скользящего среднего. Метод экспоненциального сглаживания. Оценка точности трендовой модели.
- •Тема 14. Модели временных рядов. Понятие об авторегрессионных моделях временных рядов. Коэффицент автокорреляции и автокорреляционная функция.Тест Дарбина-Уотсона.
- •Тема 15. Анализ моделей временных рядов. Решение проблемы автокорреляции. Учет сезонности. Коинтеграция временных рядов.Тест Энгла - Гренжера. Современные тенденции статанализа.
- •2.3 Планы лабораторных занятий
- •Технология построения трендов в Microsoft Excel Порядок выполнения лабораторной работы
- •Форматирование метки линии тренда.
- •Задание на выполнение лабораторной работы:
- •Задание на выполнение лабораторной работы
- •2.4 Планы занятий в рамках самостоятельной работы студентов под руководством преподаватля (срсп)
- •Тема 1. Функции распределения дискретной случайной величины. Биномиальное распределение. Применение компьютерных технологий при статистическом исследовании биномиального распределения. (2 ч.)
- •Тема 3. Функции распределения дискретной случайной величины. Распределение Пуассона. Применение компьютерных технологий при статистическом исследовании распределения Пуассона. (2 ч.)
- •Тема 4. Функции распределения непрерывной случайной величины. Гауссово распределение. Применение компьютерных технологий при статистическом исследовании Гауссово распределения. (2 ч.)
- •Тема 5. Функции распределения непрерывной случайной величины. Распределение хи-квадрат. Применение компьютерных технологий при статистическом исследовании распределения хи-квадрат. (2 ч.)
- •Тема 6. Функции распределения непрерывной случайной величины. Распределение Стьюдента. Применение компьютерных технологий при статистическом исследовании распределения Стьюдента. (2 ч.)
- •Тема 7. Функции распределения непрерывной случайной величины. Распределение Фишера. Применение компьютерных технологий при статистическом исследовании распределения Фишера. (2 ч.)
- •Тема 9. Генерация случайных чисел. Применение компьютерных технологий при генерации случайных чисел. (2 ч.)
- •Тема 10. Статистические гипотезы. Одновыборочный z-тест для средних величин. Применение компьютерных технологий при проведении одновыборочного z-теста для средних величин. (2 ч.)
- •Тема 11. Статистические гипотезы. Двухвыборочный z-тест для средних величин. Применение компьютерных технологий при проведении двухвыборочного z-теста для средних величин. (2 ч.)
- •Тема 12. Статистические гипотезы. Одновыборочный t-тест для средних величин. Применение компьютерных технологий при проведении одновыборочного t-теста для средних величин. (2 ч.)
- •Тема 15. Статистические гипотезы. Парный двухвыборочный t-тест для средних величин. Применение компьютерных технологий при проведении парного двухвыборочного t-теста для средних величин. (2 ч.)
- •2.5 Планы занятий в рамках самостоятельной работы студентов (срс)
- •Тема 1. Регрессионный анализ с применением компьютерных технологий. Интерпретация результатов.
- •Тема 2. Регрессионный анализ. Метод наименьших квадратов (мнк).Интерпретация результатов.
- •Тема 3. Регрессионный анализ. Анализ вариации зависимой переменной.
- •Тема 4. Регрессионный анализ. Условия Гаусса-Маркова по классической нормальной линейной регрессионной модели.
- •Тема 5. Регрессионный анализ. Стандартная ошибка регрессии.
- •Тема 6. Регрессионный анализ. Стандартные ошибки коэффициентов регрессии.
- •Тема 7. Регрессионный анализ. Проверка гипотез по коэффициентам регрессии.
- •Тема 8. Регрессионный анализ. Нелинейные регрессии.
- •Тема 9. Регрессионный анализ. Прогнозирование в регрессионных моделях.
- •Тема 10. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Получение тренда. Интерпретация результатов.
- •Тема 11. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Исследование автокорреляции данных временного ряда.
- •Тема 12. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Тест Дарбина-Уотсона.
- •Тема 13. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Тест на коинтеграцию на основе критерия Энгла-Грэнжера.
- •Тема 14. Статистический программный инструментарий. Обзор статистических функций ms Excel.
- •Тема 15. Статистический программный инструментарий. Обзор возможностей пакета "Анализа данных" ms Excel.
- •2.6. Тестовые задания для самоконтроля с указанием ключей правильных ответов
- •24. Имеют ли в общем случае смысловую нагрузку свободный член уравнения линейной регрессии?
- •25. Что такое корреляционные поля?
- •26. Что такое авторегрессионая модель временного ряда?
- •27. Что означает регрессионная модель с лагированными переменными?
- •28. Какой показатель определяется отношением дисперсии результативного признака регрессии к общей дисперсии результативного признака?
- •29. Какой критерий применяется для проверки гипотезы - средние двух выборок относятся к одной и той же совокупности?
- •30. Какой метод применяется для проверки гипотезы - относится та или иной вариант к данной статистической совокупности?
- •Перечень экзаменационных вопросов по пройденному курсу
- •Глоссарий
- •Выходные сведения
Тема 11. Множественная регрессия. Многомерная регрессионая модель. Фиктивные переменные. Кодирование значений качественных переменных. Мультиколлинеарность.
Множественная регрессия
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии), которая позволяет прогнозировать значения одной переменной на основе значений двух или нескольких независимых переменных Уравнение линейной множественной регрессии имеет вид:
где - теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнении регрессии; - значения факторных признаков; - параметры уравнения (коэффициенты регрессии).
При определении параметров модели методом наименьших квадратов минимизируется сумма квадратов остатков.
Рассматривая Qocm в качестве функции параметров , и выполняя математические преобразования (дифференцирование), получаем систему нормальных уравнений с т неизвестными (по числу параметров):
где п — число наблюдений, а т — число факторов в уравнении регрессии Решением этой системы уравнений находятся значения параметров являющихся коэффициентами искомого теоретического уравнения регрессии.
Фиктивные переменные
С помощью фиктивных переменных, или псевдопеременных, в регрессию включают качественные переменные, которые невозможно адекватно представить обычными числовыми значениями.
Фиктивная переменная (или индикаторная переменная) - это количественная переменная, которая принимает только два значения 0 и 1. Так, при исследовании зависимости величины заработной платы от стажа работы и пола сотрудника, пол как раз и является такой фиктивной переменной, которая может принимать значения, например, равной 1 для женщин и 0 для мужчин. Если качественная переменная представлена всего лишь двумя категориями (например, мужчины/женщины, годный/просроченный и т.д.), то ее можно представить непосредственно как индикаторную переменную, присвоив одной категории значение 1, а другой - 0 (базовое значение).
Качественная переменная X с k-категориями кодируется с помощью (k - 1)-й индикаторной переменной.
Рассмотрим пример определения трех индикаторных переменных с использованием категории стандартная упаковка в качестве базовой.
Качественная Индикаторные переменные
Вид упаковки |
Пластиковая коробка (X1) |
Пластиковый пакет (X2) |
Бумажный пакет (X3) |
Стандартная упаковка |
0 |
0 |
0 |
Пластиковая коробка |
1 |
0 |
0 |
Пластиковый пакет |
0 |
1 |
0 |
Бумажный пакет |
0 |
0 |
1 |
После того как категориальные переменные заменены на индикаторные, множественную регрессию можно рассчитывать в обычным способом (с помощью функции Regression в MS Excel).
Мультиколлинеарность - это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:
1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;
2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение R2).
Если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой.
При наличии корреляции один из пары связанных между собой факторов исключается либо в качестве объясняющего фактора берется какая-то их функция. Если статистически незначим лишь один фактор, то он должен быть исключен либо заменен другим показателем.
Для отбора факторов в модель регрессии и оценки их мультиколлинеарности можно использовать матрицу парных коэффициентов корреляции.
В модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.
Таким образом были рассмотрены принципы регрессионного анализа - статистического метода, который позволяет прогнозировать значения некоторой переменной на основе значений одной, двух или более переменных. Были рассмотрены принципы построения простой и множественной регрессии.
Современные статистические пакеты располагают разнообразными средствами проведения регрессионого анлиза, включая функции, которая позволяют определить параметры уравнения регрессии, проверить качество уравнения регрессии, а также провести проверку статистической значимости каждого коэффициента уравнения регрессии и определить их доверительные интервалы.
Литература:
1осн. [285-292], 2 осн. [49-57], 3 осн. [90-120], 6 осн. [55-58], 2доп. [81-87], 4 доп. [142-146], 6 доп. [206-214].
Контрольные вопросы
1. Каков смысл применения многофакторного регрессионного анализа?
2. Какой метод применяется при определении параметров множественной регрессии ?
3. Каковы особенности применения МНК при множественной регрессии ?
4. Каков смысл включения фиктивных переменных в регрессионное уравнение?
6. Что означает свойство мультиколлинеарности в уравнении регрессии?