- •1.Прикладные статистические исследования. Роль в них пск.
- •2.Основные типы данных в прикладных стат. Исследованиях
- •3.Общая характеристика стат. Комплексов общего назначения.
- •4.Работа с переменными в среде стат пакета spss.
- •5.Работа с переменными Statistica.
- •6.Управление данными в среде spss.
- •11. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: принцип метода и условия применения.
- •12. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: реализация в статистических пакетах.
- •1.Прикладные статистические исследования. Роль в них пск.
- •2.Основные типы данных в прикладных стат. Исследованиях .
- •3.Общая характеристика стат. Комплексов общего назначения.
- •Статистическая проверка наличия корреляции Гипотеза: : отсутствует линейная связь между выборками и (
- •26. Регрессионные модели в статпакетах
- •25. Мультиколлинеарность предикторов множественной регрессии: диагностика и пути устранения
- •27. Нелинейная регрессия
- •28. Регрессионные модели для предсказания переменных с бинарным откликом: логистическая регрессия. Анализ roc-кривых.
- •29. Кластерный анализ.
- •30. Метод деревьев решений в задачах классификации.
- •19.Корреляция Спирмона
Статистическая проверка наличия корреляции Гипотеза: : отсутствует линейная связь между выборками и (
Статистика критерия:
– распределение Стьюдента с степенями свободы.
Критерий: , где есть α-квантиль распределения Стьюдента.
Четыре различных набора данных, коэффициент корреляции на которых равен 0.81 1Неустойчивость к выбросам. 2С помощью коэффициента корреляции Пирсона можно определить силу линейной зависимости между величинами, другие виды взаимосвязей выявляются методами регрессионного анализа. 3Необходимо понимать различие понятий "независимость" и "некоррелированность". Из первого следует второе, но не наоборот. 4Для того, чтобы выяснить отношение между двумя переменными, часто необходимо избавиться от влияния третьей переменной. Рассмотрим пример 3-х переменных Исключим влияние переменной : – частный коэффициент корреляции.
Для исключения влияния большего числа переменных:
где – главный минор матрицы коэффициентов корреляции переменных
26. Регрессионные модели в статпакетах
Особенности реализации линейной регрессии в стат пакетах
SPSS:
на входе массив данных
analize
regression
linear
указать зависимую переменную (dependient), независимую (independient, iv, predictor))
пакет SPSS предлагает еще 2 необязательных для заполнения поля (selection variable); case labels – метки наблюдений
выбирается метод построения регрессии (method)
enter – все переменные включены в модель
forward, stepward, stepwice – выбираются наиболее значительные
дополнительные опции: statistica – пользователь задает, что он хочет увидеть(коэффициент регрессии, оценив. качество построенной модели, описательные статистики для всех переменных в модели средние и СКО, матрицу корреляции….)
plots – различные графики, диагностические;
save – возможность сохранить предсказ. значения, остатки в виде отдельных переменных
options – F-включения, F-исключения, пользователь может задать уровень вероятности или статистики для пошагового построения модели, обработка пропусков: построчная, попарная, замена средних.
Пакет выдает все, что задали
Иногда полезными бывают стандартные коэффициенты модели (регрессии). Они получаются, если перед построением модели все коэффициенты стандартизовать.
z=(xi-x)/СКО
Стандартные коэффициенты регрессии независимы от масштаба измерения, их можно сравнивать друг с другом.
25. Мультиколлинеарность предикторов множественной регрессии: диагностика и пути устранения
Мультиколлинеарность – это явление, когда между 2-мя или более предикторами в регрессионной модели существует тесная линейная связь. 2 предиктора очень похожи друг на друга и сложно понять, какой из них больше влияет на переменную.
Модель может получиться неустойчивыми.
Осложнения:
коэффициенты регрессии имеют большие ошибки
результаты оценивания параметров регрессии оказываются неустойчивыми к небольшим изменениям исходных данных
при интерпретации модели трудно вообразить ситуацию, когда изменяется только один предиктор
в уравнении регрессии появляются коэффициенты, знаки которых не согласуются со знаками парной корреляции этого предиктора и переменной отклика
Причины мультиколлинеарности:
ошибочное включение в модель нескольких линейно связанных переменных
ошибочное признание переменных независимыми, когда они зависимы по своей природе
включение в модель доминантной переменной, которая забивает действие всех остальных факторов
мало наблюдений
Диагностика мультиколлинеарности:
изучаем матрицу парных корреляций предикторов друг с другом: если много связанных предикторов – плохо, если определитель этой матрицы маленький, то тоже плохо (10-14)
расчетные показатели – показатель толерантности и показатель ViF=1/tolerant
tolerante=1-R2
Если ViF > 2, то модель мультиколлинеарна
Пути устранения мультиколлинеарности:
исключить отдельные предикторы из построения модели. Можно исключить тот, у которого ViF самый большой
увеличить число наблюдений, их должно быть раз в 20-50 больше, чем предикторов
переход от линейной модели к нелинейной
переход от отдельных предикторов к их линейным комбинациям, полученным методом главных компонент или эмпирическим рекомендациям