Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
PSK_ShPOR.doc
Скачиваний:
2
Добавлен:
24.09.2019
Размер:
400.9 Кб
Скачать

27. Нелинейная регрессия

нелинейная:

-по переменным

y=b0+b1x2

x2=x12 => y=b0+b1x2

-по параметрам

y=aex

Принцип нахождения параметров нелинейной регрессии в статпакетах

  1. задаются некоторые параметры регрессии ( приблизительно)

  2. вычисляются предсказанные значения у по фактическим значениям х с заданным параметром

  3. вычисляются остатки и их суммы квадратов (yii)2

  4. вносятся небольшие изменения в оценках параметров

  5. вычисляется новые предсказанные значения у, новая сумма квадратов остатков и сравнивается с предыдущим; если сумма меньше – то хорошее улучшение.

Реализация в статпакетах:

SPSS:

analyze

regression

Curve Estenation – «кривая оценка» - в этом варианте пользователь задает зависимую и независимую переменную и указывает галочкой предопределенные виды зависимости.

На входе пользователь выдаются характеристики качетсва регрессионной модели ( типа ,К2), оценки параметров регрессии и их статистическая значимость.

Функция связи известна заранее при Curve Estenation

analyze

regression

Nanlinear regression - В статпакете функции связи заранее не предусмотрено. Пользователь указывает зависимую переменную. В Modal Expression – пользователь пишет параметры.

28. Регрессионные модели для предсказания переменных с бинарным откликом: логистическая регрессия. Анализ roc-кривых.

Логистическая регрессия – это вид нелинейной регрессии, применяемый для предсказания событий с бинарными исходами. Применяется в медицине, в задачах банковской математики.

р – событие

Odds= p / (1-p) (шансы)

ln - логистическое преобразование

ln =b0+b1x1+b2x2+…+bkxk

P=Odds/1+Odds=e^b0+b1x1…bkxk /1+e^b0+b1x1…bkxk

Параметр регрессии статпакет оценивает аналогично нелинейной регрессии. В логистической регрессии содержательную интерпретацию имеет экспоненциальный коэф. регрессии.

ROC – термин возник в 50-е годы в военных поселениях

(receiver, operating, character)

Линия, отдаленная от диагонали – хорошая модель

Линия, близкая к диагонали – либо низкая Se и высокая Sp, либо наоборот. Хуже качество предсказания данной модели.

Область под кривой:

0,9-1,0 – отл

0,8-0,9 – оч.хор.

0,7-0,8 – хор

0,6-0,7 – уд

0,5-0,6 – неуд

29. Кластерный анализ.

Это разбиение заданной выборки объектов на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из схожих объектов, а каждый кластер сущ-но отличался друг от друга. Заранее принадлежность неизвестна.

Цели: 1) Понимание данных. 2) Если исход выборки слишком большой, то можно взять по 10% наблюдений из каждого типичного класса. 3) Обнаружение нетипичных объектов по нескольким причинам.

В кластерном анализе ведущим является понятие расстояние между объектами.

Кластерный анализ в статпакетах бывают 2-х видов: 1) Дендрограммы (объект с min расстояниями объединяются в 1 кластер, нах-ся в его центре) 2) Кластерный анализ сильно зависит от масштаба измерений.

30. Метод деревьев решений в задачах классификации.

Это метод, позволяющий предсказывать принадлежность объектов тому или иному классу категориальной зависимости переменной в соответствии со значениями предикторных переменных с помощью последовательной древовидной структуры с узлами и логическими конструкциями.

Назначение деревьев решений – классификация данных к заранее известным классам.

Преимущества деревьев: 1) Извлечение правил на понятном языке. 2) Интуитивно понятная классификационная модель. 3) Генерация правил, где эксперту трудно формулировать свои знания.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]