- •1.Прикладные статистические исследования. Роль в них пск.
- •2.Основные типы данных в прикладных стат. Исследованиях
- •3.Общая характеристика стат. Комплексов общего назначения.
- •4.Работа с переменными в среде стат пакета spss.
- •5.Работа с переменными Statistica.
- •6.Управление данными в среде spss.
- •11. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: принцип метода и условия применения.
- •12. Сравнение средних с помощью t критерия Стьюдента в двух независимых и связанных выборок: реализация в статистических пакетах.
- •1.Прикладные статистические исследования. Роль в них пск.
- •2.Основные типы данных в прикладных стат. Исследованиях .
- •3.Общая характеристика стат. Комплексов общего назначения.
- •Статистическая проверка наличия корреляции Гипотеза: : отсутствует линейная связь между выборками и (
- •26. Регрессионные модели в статпакетах
- •25. Мультиколлинеарность предикторов множественной регрессии: диагностика и пути устранения
- •27. Нелинейная регрессия
- •28. Регрессионные модели для предсказания переменных с бинарным откликом: логистическая регрессия. Анализ roc-кривых.
- •29. Кластерный анализ.
- •30. Метод деревьев решений в задачах классификации.
- •19.Корреляция Спирмона
27. Нелинейная регрессия
нелинейная:
-по переменным
y=b0+b1x2
x2=x12 => y=b0+b1x2
-по параметрам
y=aex
Принцип нахождения параметров нелинейной регрессии в статпакетах
задаются некоторые параметры регрессии ( приблизительно)
вычисляются предсказанные значения у по фактическим значениям х с заданным параметром
вычисляются остатки и их суммы квадратов (yi-ŷi)2
вносятся небольшие изменения в оценках параметров
вычисляется новые предсказанные значения у, новая сумма квадратов остатков и сравнивается с предыдущим; если сумма меньше – то хорошее улучшение.
Реализация в статпакетах:
SPSS:
analyze
regression
Curve Estenation – «кривая оценка» - в этом варианте пользователь задает зависимую и независимую переменную и указывает галочкой предопределенные виды зависимости.
На входе пользователь выдаются характеристики качетсва регрессионной модели ( типа ,К2), оценки параметров регрессии и их статистическая значимость.
Функция связи известна заранее при Curve Estenation
analyze
regression
Nanlinear regression - В статпакете функции связи заранее не предусмотрено. Пользователь указывает зависимую переменную. В Modal Expression – пользователь пишет параметры.
28. Регрессионные модели для предсказания переменных с бинарным откликом: логистическая регрессия. Анализ roc-кривых.
Логистическая регрессия – это вид нелинейной регрессии, применяемый для предсказания событий с бинарными исходами. Применяется в медицине, в задачах банковской математики.
р – событие
Odds= p / (1-p) (шансы)
ln - логистическое преобразование
ln =b0+b1x1+b2x2+…+bkxk
P=Odds/1+Odds=e^b0+b1x1…bkxk /1+e^b0+b1x1…bkxk
Параметр регрессии статпакет оценивает аналогично нелинейной регрессии. В логистической регрессии содержательную интерпретацию имеет экспоненциальный коэф. регрессии.
ROC – термин возник в 50-е годы в военных поселениях
(receiver, operating, character)
Линия, отдаленная от диагонали – хорошая модель
Линия, близкая к диагонали – либо низкая Se и высокая Sp, либо наоборот. Хуже качество предсказания данной модели.
Область под кривой:
0,9-1,0 – отл
0,8-0,9 – оч.хор.
0,7-0,8 – хор
0,6-0,7 – уд
0,5-0,6 – неуд
29. Кластерный анализ.
Это разбиение заданной выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а каждый кластер сущ-но отличался друг от друга. Заранее принадлежность неизвестна.
Цели: 1) Понимание данных. 2) Если исход выборки слишком большой, то можно взять по 10% наблюдений из каждого типичного класса. 3) Обнаружение нетипичных объектов по нескольким причинам.
В кластерном анализе ведущим является понятие расстояние между объектами.
Кластерный анализ в статпакетах бывают 2-х видов: 1) Дендрограммы (объект с min расстояниями объединяются в 1 кластер, нах-ся в его центре) 2) Кластерный анализ сильно зависит от масштаба измерений.
30. Метод деревьев решений в задачах классификации.
Это метод, позволяющий предсказывать принадлежность объектов тому или иному классу категориальной зависимости переменной в соответствии со значениями предикторных переменных с помощью последовательной древовидной структуры с узлами и логическими конструкциями.
Назначение деревьев решений – классификация данных к заранее известным классам.
Преимущества деревьев: 1) Извлечение правил на понятном языке. 2) Интуитивно понятная классификационная модель. 3) Генерация правил, где эксперту трудно формулировать свои знания.