40. Дисперсионный анализ

Дисперсионный анализ является одним из основополагающих статистических методов. Важность умения работать с его алгоритмами определяется не только теми возможностями, которые он предоставляет исследователю для самостоятельного анализа данных. Как и в случае с корреляционным анализом, изучение дисперсий переменных входит во многие более сложные статистические методы.

Дисперсионный анализ служит для проверки гипотезы о статистической значимости различий между средними величинами в нескольких группах наблюдений.,

В дисперсионном анализе выборки должны извлекаться случайно из генеральных нормально распределенных совокупностей.

Основной целью дисперсионного анализа является исследование значимости различия между средними. Раздел Элементарные понятия статистики содержит краткое введение в исследование статистической значимости. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений). Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares - Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных: Основная логика дисперсионного анализа. Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

41!. Дискриминантный анализ.

Определить, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе. Первоначально используются группы с различающимися качественными характеристиками, например, люди, имеющие или не имеющие наркотическую зависимость. Затем эти группы обмеряются разными видами инструментария, не имеющего прямого отношения к целевой качественной характеристике. Дискриминантный анализ позволяет оценить различающую способность этих видов инструментария. Затем использованные косвенные характеристики применяются для прогнозирования попадания новых объектов в каждую из первоначально заданных групп.

Цель: определить, к какому классу относятся объекты с помощью определенных признаков.

Нужно создать классифицирующее правило, позволяющее приписать новый элемент к своей подгруппе в ситуации, когда исследователю неизвестно, в какой совокупности он принадлежит.

Использование линейной функции и прямая связь.

Из большого числа выбираются те переменные, которые лучше влияют на итог классификации.

на каждом шаге смотрят все переменные и находят ту, которая вносит наибольший вклад в различия. И ее включают в следующий шаг

исключение переменных. Все включают. Исключают ту, которая вносит наименьший вклад в различия.

Y = a + b1x1 + b2x2 + … + bnxn

B – коэффициент регрессии переменной. Чем больше В, тем больше вклад.

Последовательность:

вычисление функций от исследуемых показателей

упорядочение самих показателей

вычисление вероятности ошибочной классификации

удачная модель: вероятность распределения по группам не меньше 72-75 %.

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 / 3121 22 23 24 25 26 27 28 29 30 31 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.11.2019194.56 Кб25полезность на ВМО 20.10.doc
#
17.11.20182.4 Mб74Полимеры в медицине и биологии.doc
#
03.12.2018173.57 Кб1Полина колонтитул справлен.doc
#
18.09.201956.22 Кб0Полит. система Австралии.docx
#
15.04.2015538.11 Кб3Полит.гео.doc
#
22.12.2018678.91 Кб14политанал.doc
#
21.03.201621.61 Mб14Политическая георафия 2014.pdf
#
18.11.2019130.05 Кб2ПОЛИТИЧЕСКАЯ КАРТА МИРА.doc
#
23.09.201941.23 Кб0ПОЛИТИЧЕСКАЯ КУЛЬТУРА И ДЕМОКРАТИЯ.docx
#
18.09.201922.28 Кб0Политическая система Бразилии.docx
#
20.09.201964.14 Кб2Политическая система Великобритании.docx