- •Мсм как самостоятельная область научных знаний. Их особенности и отличия от методов классич. Статистики.
- •Основные исторические этапы развития мсм.
- •Классификация мсм. Параметрические и непараметрич. Методы, их различия.
- •Особенности социально-экономической информации. Измерение различ. Данных.
- •1) Особенности соц.-экономич. Инф-ции
- •2) Измерение разнотипных данных
- •Оцифровка неколичественной информации. Основные способы оцифровки.
- •2) Таблица логического описания:
- •4) Таблица рангов
- •6) Таблица сравнений:
- •Понятие признакового пространства. Примеры одномерного, двумерного и многомерного признакового пространства. Геометрическая интерпретация.
- •Многомерные случайные величины и их распределения. Многомерные статистические гипотезы. Примеры.
- •1) Понятие многомерной случайной величины (мсв)
- •2) Примеры наиболее часто используемых законов:
- •3) Проверка статистической гипотезы предполагает:
- •Доверительные области
- •Критерий Хотеллинга для двух многомерных выборок.
- •Критерий Бартлетта и проверка гипотезы об однородности дисперсии.
- •Груб. Ошибки. Причины их появл-ия в статистич. Сов-ти. Методы их выявл-ия.
- •Основные методы устойчивого оценивания параметров выбороч. Совокупности.
- •Корреляционно-дисперсионный анализ многомерных количественных данных.
- •Меры связи количественных и неколичественных многомерных данных. Вероятностные коэффициенты связи. Количественные многомерные данные
- •Неколичественные многомерные данные
- •2. Коэффициент Кэндалла
- •Вероятностные коэффициенты связи
- •Дисперсионный и энтропийный коэффициенты конкордации. В каких границах они изменяются, и что это означает.
- •Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости.
- •Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости.
- •Критерий независимости для таблиц сопряженности.
- •Метод главных компонент.
- •Использование главных компонент в многомерном регрессионном анализе.
- •33) Кластерный анализ качественных многомерных данных
- •34)Методы иерархического кластерного анализа. Алгоритмическая схема. Геометрическая интерпретация результатов. Основные иерархические методы:
- •3. Метод средних связей
- •Дивизивный метод
- •35)Итеративные методы:
- •39) Вычисление дискриминантных значений. Геометрическая интерпретация результатов. Оценка качества дискриминации.
- •Перечень вопросов по курсу «Многомерные статистические методы»
- •Основные исторические этапы развития мсм.
- •Гауссовское (непрерывное)
- •Общий критерий Хоттелинга:
- •Общий критерий Хоттелинга:
- •Частный критерий Хоттелинга:
- •Одномерный критерий:
- •1.Для количеств.Данных:
- •6 Иерархических методов:
Основные методы устойчивого оценивания параметров выбороч. Совокупности.
Главный вопрос – устранять или винзорировать?
Если устранять, то уменьшается выборка и потеря объекта или периода.
Метод Пуанкаре (логический критерий)
- усеченное значение по Пуанкаре
, где - целая часть от произв-я , , где - степень засор-я (%)
Например, если в выборке объема n 2 грубые ошибки, то
, - находится по таблице
Е сли (k – предполагаемое количество грубых ошибок), то устойчивая оценка МО может быть получена по данной формуле Пуанкаре.
Винзорированная оценка МО
Среднее по Винзору:
, где - степень засорения выборки (%)
Физический смысл формулы – смотри рисунок
- устойчивая оценка МО по Винзору.
Метод Хубера
Алгоритм:
n - объем первоначальной выборки
h – функция от степени засорения выборки: (табличное значение из таблицы Хубера)
n1 – количество наблюдений из совокупности, отличающихся наименьшим значением, т.е. число точек, для которых
n2 – количество наблюдений из совокупности, отличающихся наибольшим значением, т.е. число точек, для которых
- начал. оценка МО (сред. арифметическая) или уже известное МО (может быть мода или медиана)
На каждом шаге происходит разделение выборки на 3 части.
1 шаг: - определение , если оно не заданно
- выборка делится на 3 части в соответствии с вышеприведенными соображениями
2 шаг: - Получение новой оценки МО по формуле
- наименьшие значения заменяются на
- наибольшие данные заменяются на
- повтор 1го шага (деление на 3 части).
Итерации выполняются до тех пор, пока все не попадут в
Если невелика, то метод Хубера сходится достаточно быстро и дает эффективную оценку.
В многомерном случае засорением будет не отдельные значения, а вектора.
Чтобы удостовериться, что проверяемое значение является выбросом пользуются расстоянием Махаланобиса:
- вектор, подозреваемый на выбросы
Если > , то проверяемая многомерная величина Х признается грубой ошибкой или выбросом.
Каждая отдельная величина проверяется как компонента грубой ошибки.
Корреляционно-дисперсионный анализ многомерных количественных данных.
Исследование лин. завис-ти результирующего признака от единственной объясняющей переменной
Коэффициент детерминации (характеризует долю вариации (разброса) зависимой переменной, объясненную с помощью уравнения регрессии):
Коэф-ент корреляции (показатель тесноты связи):
Исследование линейной зависимости результирующего признака от нескольких переменных
Парная корреляция – измерение силы линейных связей различных пар признаков из их множества, при этом связь каждой пары находится под воздействием связей всех других признаков между собой и признаками данной пары:
Частная корреляция – измерение силы чистых линейн. связей пар признаков, при этом связи всех других признаков с признаками из данной пары не действуют, нивелированы: , где , , - алгебраические дополнения к соответствующим элементам матрицы парных корреляций R.
Коэффициент множественной корреляции – численная характеристика силы связи отклика со всеми предикторами: R0 = (1 - |R|/|Rj|)1/2, где |R| - определитель матрицы парных корреляций R, |Rj| - минор к матрице парных корреляций (в матрице R вычеркивается строка и столбец, представляющие характеристики связи с j-м признаком, выступающим в качестве отклика).
Коэффициент множественной детерминации – численная характеристика доли вариации признака, объясненной вариацией всех предикторов: R02 = 1 - |R|/|Rj| = (R0)2
Для определения статистической значимости коэффициента детерминации используется F-статистика: , где m – кол-во факторов. Если F < Fкр (степени свободы v1 = 1, v2 = n-m-2), то R2 считается незначимым; если F > Fкр, то R2 считается значимым.
Значимость лин. коэф-та корреляции проверяется на основе величины ошибки коэф-та корреляции: . Фактич. значение t-критерия Стьюдента определяется как:
В случае пар. регрессии: , следовательно, . Также существует следующая связь: . Сл-но, проверка гипотез о знач-ти коэф-тов регрессии и кор-ции равносильна проверке гипотезы о знач-ти ур-ния регрес-и.
Исследование парной нелинейной связи
К орреляционное отношение вбирает в себя идеологию коэф-та детерминации, но в случае нелин. связи.
Необходимо найти все интервалы скопления точек. Интервалов может быть . Индекс корреляции строится, если получить проекцию каждой точки на ось ординат. Очень важно то, что корреляционное отношение не обладает симметрией, т.е.: . Необходимо найти частные средние ординаты в каждом j-ом интервале:
, где - количество точек в j-м интервале.
Аналогом факторной дисперсии в случае нелин. связи явл-ся: , где
Оценка для нелинейного коэффициента детерминации (корреляционного отношения): ,
где - все отклонения по точкам:
Иногда этот коэффициент служит мерой нелинейности. Он совпадет с коэффициентом корреляции только в случае линейной связи. След. величина показывает отклонение от линейности: = |ryx| - |yx|
yx 0, при этом yx = 0, если связь полностью отсутствует, и yx = 1, если связь абсолютна (однозначное функциональное отображение y через x). Всегда |yx||ryx| (равенство только в случае линейности вязи)
Критериальная проверка:
H0 - свидетельствует о незначимости коэф-та (равенстве нулю). Проверяется по критерию Фишера:
, , следовательно, значимость корреляцион. отношения.