- •Министерство образования и науки Республики Казахстан
- •1. Учебная программа дисциплины – Syllabus
- •1. 1. Данные о преподавателях:
- •1.1 Данные о дисциплине:
- •Выписка из учебного плана
- •1.5. Краткое описание дисциплины
- •1.6. Перечень и виды заданий и график их выполнения:
- •Виды заданий и сроки их выполнения
- •1.7. Список литературы
- •1.8. Контроль и оценка знаний
- •Распределение рейтинговых баллов по видам контроля
- •Календарный график сдачи всех видов контроля
- •Оценка знаний студентов
- •2. Содержание Активного раздаточного материала
- •2.1 Тематический план курса составляется в виде таблицы, где указываются наименование темы и количество академических часов, предусмотренных для каждой темы. Тематический план курса
- •2.2 Конспект лекционных занятий
- •Глава 1. Основные понятия и определения статистики
- •Тема 2. Показатели описательной статистики. Среднее, дисперсия, стандартное отклонение, эксцесс, асимметрия, интервалы. Компьютерные технологии получения дескриптивной статистики.
- •Глава 2. Выборки.
- •Тема 5. Анализ одной выборки. Анализ однородности выборки. Доверительные интервалы для среднего. Доверительные интервалы для средних выборок. Компьютерные технологии анализа.
- •Тема 6. Анализ двух выборок. Выявление достоверности различий. Параметрические и непараметрические методы анализа выборок. Компьютерные технологии анализа одной выборки.
- •Глава 3. Анализ статданных.
- •Тема 7. Дисперсионный анализ статданных. Однофакторный дисперсионный анализ статистических данных. F- тест для для дисперсий. Компьютерные технологии анализа.
- •Тема 8. Корреляционный анализ статданных. Коэффицент корреляции Пирсона. Коэффициент ранговой корреляции. Ложная и истинная корреляция Компьютерные технологии анализа.
- •Глава 4. Регрессионный анализ.
- •Тема 9. Регрессионный анализ статданных. Простая линейная регрессии. Оценивание параметров линейной регрессиии методом наименьших квадратов, коэффициент детерминации.
- •Тема 10. Оценка существенности параметров линейной регрессии. Оценка качества регрессии f-критерий Фишера, t-статистика. Проверка значимости параметров регрессии. Понятие нелинейной регрессии.
- •Тема 11. Множественная регрессия. Многомерная регрессионая модель. Фиктивные переменные. Кодирование значений качественных переменных. Мультиколлинеарность.
- •Глава 5. Анализ временных рядов.
- •Тема 12. Анализ статданных в виде временных рядов. Временные ряды и их характеристики. Аддитивная и мультипликативная модель. Декомпозиция временного ряда.
- •Тема 13. Анализ и получение тренда. Методы аналитического выравнивания. Метод скользящего среднего. Метод экспоненциального сглаживания. Оценка точности трендовой модели.
- •Тема 14. Модели временных рядов. Понятие об авторегрессионных моделях временных рядов. Коэффицент автокорреляции и автокорреляционная функция.Тест Дарбина-Уотсона.
- •Тема 15. Анализ моделей временных рядов. Решение проблемы автокорреляции. Учет сезонности. Коинтеграция временных рядов.Тест Энгла - Гренжера. Современные тенденции статанализа.
- •2.3 Планы лабораторных занятий
- •Технология построения трендов в Microsoft Excel Порядок выполнения лабораторной работы
- •Форматирование метки линии тренда.
- •Задание на выполнение лабораторной работы:
- •Задание на выполнение лабораторной работы
- •2.4 Планы занятий в рамках самостоятельной работы студентов под руководством преподаватля (срсп)
- •Тема 1. Функции распределения дискретной случайной величины. Биномиальное распределение. Применение компьютерных технологий при статистическом исследовании биномиального распределения. (2 ч.)
- •Тема 3. Функции распределения дискретной случайной величины. Распределение Пуассона. Применение компьютерных технологий при статистическом исследовании распределения Пуассона. (2 ч.)
- •Тема 4. Функции распределения непрерывной случайной величины. Гауссово распределение. Применение компьютерных технологий при статистическом исследовании Гауссово распределения. (2 ч.)
- •Тема 5. Функции распределения непрерывной случайной величины. Распределение хи-квадрат. Применение компьютерных технологий при статистическом исследовании распределения хи-квадрат. (2 ч.)
- •Тема 6. Функции распределения непрерывной случайной величины. Распределение Стьюдента. Применение компьютерных технологий при статистическом исследовании распределения Стьюдента. (2 ч.)
- •Тема 7. Функции распределения непрерывной случайной величины. Распределение Фишера. Применение компьютерных технологий при статистическом исследовании распределения Фишера. (2 ч.)
- •Тема 9. Генерация случайных чисел. Применение компьютерных технологий при генерации случайных чисел. (2 ч.)
- •Тема 10. Статистические гипотезы. Одновыборочный z-тест для средних величин. Применение компьютерных технологий при проведении одновыборочного z-теста для средних величин. (2 ч.)
- •Тема 11. Статистические гипотезы. Двухвыборочный z-тест для средних величин. Применение компьютерных технологий при проведении двухвыборочного z-теста для средних величин. (2 ч.)
- •Тема 12. Статистические гипотезы. Одновыборочный t-тест для средних величин. Применение компьютерных технологий при проведении одновыборочного t-теста для средних величин. (2 ч.)
- •Тема 15. Статистические гипотезы. Парный двухвыборочный t-тест для средних величин. Применение компьютерных технологий при проведении парного двухвыборочного t-теста для средних величин. (2 ч.)
- •2.5 Планы занятий в рамках самостоятельной работы студентов (срс)
- •Тема 1. Регрессионный анализ с применением компьютерных технологий. Интерпретация результатов.
- •Тема 2. Регрессионный анализ. Метод наименьших квадратов (мнк).Интерпретация результатов.
- •Тема 3. Регрессионный анализ. Анализ вариации зависимой переменной.
- •Тема 4. Регрессионный анализ. Условия Гаусса-Маркова по классической нормальной линейной регрессионной модели.
- •Тема 5. Регрессионный анализ. Стандартная ошибка регрессии.
- •Тема 6. Регрессионный анализ. Стандартные ошибки коэффициентов регрессии.
- •Тема 7. Регрессионный анализ. Проверка гипотез по коэффициентам регрессии.
- •Тема 8. Регрессионный анализ. Нелинейные регрессии.
- •Тема 9. Регрессионный анализ. Прогнозирование в регрессионных моделях.
- •Тема 10. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Получение тренда. Интерпретация результатов.
- •Тема 11. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Исследование автокорреляции данных временного ряда.
- •Тема 12. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Тест Дарбина-Уотсона.
- •Тема 13. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Тест на коинтеграцию на основе критерия Энгла-Грэнжера.
- •Тема 14. Статистический программный инструментарий. Обзор статистических функций ms Excel.
- •Тема 15. Статистический программный инструментарий. Обзор возможностей пакета "Анализа данных" ms Excel.
- •2.6. Тестовые задания для самоконтроля с указанием ключей правильных ответов
- •24. Имеют ли в общем случае смысловую нагрузку свободный член уравнения линейной регрессии?
- •25. Что такое корреляционные поля?
- •26. Что такое авторегрессионая модель временного ряда?
- •27. Что означает регрессионная модель с лагированными переменными?
- •28. Какой показатель определяется отношением дисперсии результативного признака регрессии к общей дисперсии результативного признака?
- •29. Какой критерий применяется для проверки гипотезы - средние двух выборок относятся к одной и той же совокупности?
- •30. Какой метод применяется для проверки гипотезы - относится та или иной вариант к данной статистической совокупности?
- •Перечень экзаменационных вопросов по пройденному курсу
- •Глоссарий
- •Выходные сведения
Тема 8. Корреляционный анализ статданных. Коэффицент корреляции Пирсона. Коэффициент ранговой корреляции. Ложная и истинная корреляция Компьютерные технологии анализа.
Ранее мы рассмотривали главным образом такие статистические характеристики, как среднее значение и отклонение, которых обычно достаточно при работе с одномерными данными. Однако на практике существует достаточно большое количество явных и неявных взаимосвязей, например, между объемом выпускаемой предприятием продукции и затратами на производство, между объемом сбыта и уровнем дохода и т.д. Иначе говоря, на практике речь часто может идти о двухмерных данных и зависимостях между ними.
Существует два базовых инструмента, с помощью которых анализируются двухмерные данные: корреляционный анализ, позволяющий оценить степень взаимосвязи между двумя факторами (если такая взаимосвязь вообще существует), и регрессионный анализ, который показывает, как можно предсказать поведение одной из двух переменных или управлять ею с помощью другой.
Коэффициент корреляции Пирсона
Измерение, насколько тесная связь существует между двумя переменными, позволяет, прежде всего, убедиться в ее реальном наличии. Наиболее важным для практического использования является случай, когда связь между признаками X и Y линейная. Мера силы линейной связи признаков X и Y называется коэффициентом корреляции (коэффициент линейной корреляции Пирсона) и определяется по следующей формуле:
.
Величина =cov(X,Y) называется ковариацией случайных величин X и Y или корреляционным моментом. Для независимых случайных величин ковариация будет равна нулю. Однако равенство cov(X, Y) = 0 не означает в общем случае полной независимости величин X и Y, т.е. оно является необходимым, но не достаточным условием для независимости признаков.
Величина ковариации зависит от единиц измерения (изменяется, например, при переходе от метров к сантиметрам). Поэтому на практике чаще используют другой показатель - коэффициент корреляции, который является величиной безразмерной. При вычислении выборочного (эмпирического) коэффициента корреляции теоретические величины заменяются их оценками.
Необходимо уточнить, что эта формула справедлива для генерального коэффициента корреляции (т.е. для коэффициента корреляции генеральной совокупности данных). Чтобы рассчитать выборочный коэффициент корреляции, необходимо в этих формулах среднее значение по генеральной совокупности заменить на среднее по выборке, а стандартное отклонение по генеральной совокупности - на стандартное отклонение по выборке. Коэффициент корреляции принимает значения в интервале
-1 < r < 1.
Коэффициент корреляции может быть равен -1 или 1, только если X и Y линейно зависят друг от друга. Величина |r|, близкая к 1, указывает, что зависимость между данными случайными величинами
почти линейная. Значения |r|, близкие к 0, означают, что связь между случайными величинами либо слабая, либо не носит линейного характера. Таким образом, можно сделать вывод, что коэффициент корреляции характеризует степень приближения зависимости между случайными величинами к линейной функциональной зависимости.
Если распределение величин X и Y близко к нормальному, то корреляция между ними линейная и выборочный коэффициент корреляции r, является надежной оценкой генерального (теоретического) коэффициента .
Если r >0, то связь между переменными положительная (прямая). Иначе говоря, можно утверждать, что с точностью до случайных погрешностей величины X и Y одновременно возрастают или убывают. При, r<0 связь отрицательная (обратная), т.е. с возрастанием одной величины другая имеет устойчивую тенденцию к убыванию.
Коэффициент корреляции часто используют и при связях, отличающихся от линейных. Если |r| =0,8...0,9, то, независимо от реального вида связи, можно утверждать, что она достаточно тесна для того, чтобы можно было исследовать ее форму с помощью коэффициента корреляции.
Коэффициент ранговой корреляции.
Ранговые коэффициенты корреляции могут использоваться для измерения связи как порядковых, так и количественных признаков. При этом анализ конкретных значений признаков не проводится, используется лишь информация об их взаимной упорядоченности - по типу "больше-меньше", которая не меняется при замене единиц измерения.
Пусть - значения признакаX для исследуемого объекта, а - значения признака Y для того же объекта. Каждое наблюдение над объектом характеризуется парой чисел (),(i= 1, 2,...,n). От чисел можно перейти к рангам от чисел - к рангам . Предположим, что среди чисел х, и у, нет повторяющихся, т.е. ранжировки для обоих признаков - без связей.
Теперь каждое наблюдение характеризуется парой натуральных чисел (). Если признаки X и Y взаимосвязаны, то последовательность рангов в какой-то мере влияет на ранговую последовательность . Если признаки независимы, то порядок среди , случаен по отношению к порядку среди .
Близость двух рядов и характеризует коэффициент Спирмена.
Полная предсказуемость одной ранговой последовательности по другой возникает в двух случаях.
1. Когда последовательности полностью совпадают, при этом = 0 - наименьшее возможное значение.
2. Когда последовательности полностью противоположны, т.е. при = 1 значение , при = 2 значение и т.д. В этом случае.
Коэффициент ранговой корреляции Спирмена вычисляется по формуле:
который по абсолютной величине ограничен единицей: -1 < < 1.
Существует опасность спутать понятия статистической зависимости с более фундаментальным понятием причинной связи. Очень часто коэффициент корреляции неправильно интерпретируется, если значение r оказывается близким к +1 или -1, то отсюда делается вывод, что существует тесная зависимость между переменными. Исследователю следует с осторожностью относиться к результатам статистического исследования. Поэтому, говоря об условности статистического исследования, следует, прежде всего, иметь в виду целенаправленность интерпретации полученных результатов. Говорить о пригодности прогностической модели можно, если только будет найден соответствующий причинно-следственный механизм, объясняющий (пусть даже косвенным образом) корреляционную зависимость.
Таким образом в данной лекции, были рассмотрены основные элементы корреляционного анализа, позволяющие сделать вывод о силе взаимосвязи между двумя переменными. В качестве визуального инструмента корреляционного анализа можно также использовать диаграмму рассеяния, с помощью которой двухмерные данные можно представлять графически, а затем анализировать. Современные программные средства содержат разнообразные средства для проведения корреляционного анализа, например в MS Excel можно воспользоваться функциями Correlation, Covariance, Rank и другими.
Литература:
1осн. [268-285], 5осн.[71-74], 6осн.[17-21], 3доп. [248-259], 4доп.[127-134], 6доп. [100-205].
Контрольные вопросы
1. Каковы основные статистические задачи корреляционного анализа статданных?
2. Как вычисляется коэффицент корреляции Пирсона?
3. Как вычисляется величина ковариации признаков?
4. Какова интерпретация значений коэффициента корреляции?
5. Каков смысл коэффициента ранговой корреляции?