- •Мсм как самостоятельная область научных знаний. Их особенности и отличия от методов классич. Статистики.
- •Основные исторические этапы развития мсм.
- •Классификация мсм. Параметрические и непараметрич. Методы, их различия.
- •Особенности социально-экономической информации. Измерение различ. Данных.
- •1) Особенности соц.-экономич. Инф-ции
- •2) Измерение разнотипных данных
- •Оцифровка неколичественной информации. Основные способы оцифровки.
- •2) Таблица логического описания:
- •4) Таблица рангов
- •6) Таблица сравнений:
- •Понятие признакового пространства. Примеры одномерного, двумерного и многомерного признакового пространства. Геометрическая интерпретация.
- •Многомерные случайные величины и их распределения. Многомерные статистические гипотезы. Примеры.
- •1) Понятие многомерной случайной величины (мсв)
- •2) Примеры наиболее часто используемых законов:
- •3) Проверка статистической гипотезы предполагает:
- •Доверительные области
- •Критерий Хотеллинга для двух многомерных выборок.
- •Критерий Бартлетта и проверка гипотезы об однородности дисперсии.
- •Груб. Ошибки. Причины их появл-ия в статистич. Сов-ти. Методы их выявл-ия.
- •Основные методы устойчивого оценивания параметров выбороч. Совокупности.
- •Корреляционно-дисперсионный анализ многомерных количественных данных.
- •Меры связи количественных и неколичественных многомерных данных. Вероятностные коэффициенты связи. Количественные многомерные данные
- •Неколичественные многомерные данные
- •2. Коэффициент Кэндалла
- •Вероятностные коэффициенты связи
- •Дисперсионный и энтропийный коэффициенты конкордации. В каких границах они изменяются, и что это означает.
- •Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости.
- •Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости.
- •Критерий независимости для таблиц сопряженности.
- •Метод главных компонент.
- •Использование главных компонент в многомерном регрессионном анализе.
- •33) Кластерный анализ качественных многомерных данных
- •34)Методы иерархического кластерного анализа. Алгоритмическая схема. Геометрическая интерпретация результатов. Основные иерархические методы:
- •3. Метод средних связей
- •Дивизивный метод
- •35)Итеративные методы:
- •39) Вычисление дискриминантных значений. Геометрическая интерпретация результатов. Оценка качества дискриминации.
- •Перечень вопросов по курсу «Многомерные статистические методы»
- •Основные исторические этапы развития мсм.
- •Гауссовское (непрерывное)
- •Общий критерий Хоттелинга:
- •Общий критерий Хоттелинга:
- •Частный критерий Хоттелинга:
- •Одномерный критерий:
- •1.Для количеств.Данных:
- •6 Иерархических методов:
Гауссовское (непрерывное)
m-размерность призн.пр-ва
Пр-ло: Если: 1) ∑(m*m) 2)η=(η1…ηm)T – независ.одном.норм.СВ 3)μ0ЄRm 4)м-ца А 5)ξ=Аη+μ0, то
Мульти(поли)номиальный – распр-ние биномин.распр-ния на многомерн.случ.
Бескон.совокупн.сод. объекты l типов (l>=2) 2)υjpj(n) – об.j появл.с вер. Pj в n-кратном экспер. V=( υ1p1(n), … , υlpl(n)), их сумма=n.
X1, …, Xl – натур.числа и 0.
Билет №8. Многомерные гипотезы.
Общий критерий Хоттелинга:
А) ∑ изв. H0:Xср~μ0, Н1: Хср≠μ0
T2<T2кр, Н0 приним.
Б) ∑ неизв. где К – м-ца центриров.знач.Х
2. Частный критерий Хоттелинга:
А) H0:Xjср~μj, Н1: Хjср≠μj
Б) H0:Xср~μ0, Н1: Хср≠μ0 (проверяем 1<l<m компонент)
,l,m-l v1=l, v2=n-l-1,
Доверительные области:
Общий критерий Хоттелинга:
А)∑изв
Б) ∑неизв.
2. Частный критерий Хоттелинга:
)0,5; )0,5]
В учебнике:
Билет №9. Критерий Хоттелинга для двух многомерн.выборок (n1≠n2)
1. Общий критерий Хоттелинга:
H0: M[ξ1] = M[ξ2]
- объединенная матрица, K1 – м-ца центриров.знач.
, то Н0 приним.
Частный критерий Хоттелинга:
Билет №10. Критерий Бартлетта.
Одномерный критерий:
- объем выборки i, n=n1+…+nl
С < 1 – коэффициент, связывающий степени свободы, если С < 1 - критерий не работает
Н0 принимается.
2. Многомерный критерий:
ni – объем i-й выборки; hi = ni – 1;
Ki – матрица центрированных значений
, В по мод.<1. Н0 принимается.
Билет №11. Методы выявления грубых ошибок.
Критерий Смирнова-Граббса:
Дисперсионный критерий Граббса:
G>=C``10% типичное значение; G<C``2,5% ошибка; С``2,5% <= G <C``10% доп исслед-я.
Критерий Титьена-Мура:
L≥C`10%, типичн.знач.; L<C`2,5%, все k-груб.ош.
Билет №12. Основные методы робастного оценивания.
Метод Пуанкаре:
e - степень засорения выборки, α=f(e) – по табл.
Если , то T(α) – устойчивая оценка МО выборочной совокупности.
Устойчивая средняя по Виндзору:
MO*=
Итеративная процедура Хубера:
Θ(α) – пока θj(α) не перестанет изменяться.
1)Разбить исходную совокупность на 3 части: а) истинные значения (j-ый шаг):
б)значения, существенно меньшие θj(α): в)значения, существенно большие θj(α):
2)
а)
Все снова делим на 3 части.
Многомерный подход к получению устойчивых оценок:
xj=(x1j,…,xnj), где j-признак
- расстояние Махаланобиса.
Билет №13. Корреляционно-дисперсионный анализ количественных данных.
М-ца парн.коэфф.коррел.:
М-ца частн.коэфф.коррел.: , где R12`-вычеркн.из R12 1стр.и 2столб.
Пров.на знач.частн.коэфф.коррел: , n-объем выборки, l-число фиксиров.призн.
Доверит.интерв.для частн.коэфф.коррел.: в табл.Фишера Zrmin(z-Δz), zrmax(z+Δz)переходим к аргументу r.
Множеств.коэфф.коррел.(действ.,если все связи лин.): |R6|-опр-ль м-цы парн.коэфф.коррел.
Пров.на нач.множеств.коэфф.коррел.:
Исследование парной нелинейное связи. Корреляционное отношение
Корреляционное отношение вбирает в себя идеологию коэффициента детерминации, но в случае нелинейной связи.
Н еобходимо найти все интервалы скопления точек. Интервалов может быть . Получить проекцию каждой точки на ось ординат. Корреляционное отношение не обладает симметрией, т.е.: Необходимо найти частные средние ординаты в каждом j-ом интервале: , где - количество точек в j-м интервале.
Универсальный измеритель связи в случае линейной вязи – коэффициент детерминации:
Аналогом факторной дисперсии в случае нелинейной связи является:
, где
Оценка для нелинейного коэффициента детерминации (корреляционного отношения):
, где - все отклонения по точкам:
Иногда этот коэффициент служит мерой нелинейности. Он совпадет с коэффициентом корреляции только в случае линейной связи. Следующая величина показывает отклонение от линейности:
. Чем больше дельта, тем сильнее нелинейность.
При этом , если связь полностью отсутствует, и , если связь абсолютна (однозначное функциональное отображение y через x)
Всегда (равенство только в случае линейности вязи)
Критериальная проверка:
H0 - свидетельствует о незначимости коэффициента (равенстве нулю). Проверяется по критерию Фишера:
=> H1: ρx1x2≠0
S-кол-во интервалов разбиения.
Если , то это свидетельствует о значимости корреляционного отношения.
Билет №14. КДА порядковых величин.
Билет №15. Дисперсионный и энтропийный коэфф.конкордации.
|
Э1 |
Э2 |
… |
Эq |
… |
Эw |
∑ |
O1 |
|
|
|
|
|
|
r1 |
O2 |
|
|
|
|
|
|
r2 |
… |
|
|
|
|
|
|
|
Oi |
|
|
|
riq |
|
|
ri |
… |
|
|
|
|
|
|
|
On |
|
|
|
|
|
|
rn |
∑ |
r1 |
r2 |
|
rq |
|
rw |
∑ |
1) Все эксперты дали различные ранжировки любому объекту:
Если и , то , следовательно,
Вывод: чем меньше дисперсия, тем более различны мнения экспертов. Это главное отличие рангового анализа от количественного.
2) Все эксперты высказали схожее мнение (дали одинаковые ранжировки какому-л. об.):
Итак:
Свойства коэффициента конкордации: 1) при максимальной согласованности S=1 2) при различных мнениях S = 0.
,
Энтропийный коэффициент конкордации
, - вероятность присвоения i-му объекту j-го ранга экспертом.
Как правило, вероятности неизвестны и берут их оценку в виде частостей:
,
Где - количество экспертов, присвоивших i-му объекту j-ый ранг
W – общее количество экспертов
А) Мнения различны, ранги присваиваются случайно pij=(1/n) H=n*ln(n)
Б) Все эксперты дали одинаковые мнения
W=1 при полной согласованности, W=0 при полной рассогласованности.
S: устанавливает лишь факт наличия/отсутствия связи. W: рассматривает разбиение совокупности на подгруппы.
1) некомпетентность экспертов; 2)использование одного внешнего источника; 3) исх.инф-ция не отражает проблему; 4)сговор эксп. ; 5)определяющее мнение авторитета; 6) матем.неверн.обраб.данных.
Билет №16. Коэффициент Спирмена, проверка на значимость.
А) , n-число объектов,rik-ранжировка, данная k-ым экспертом i-му объекту.
Б)для связных рангов:
, где , l=k(h)
t – номер группы связных рангов,
- число групп связных рангов в ранжировке l,
- число элементов (рангов), входящих в t-ую группу связн. рангов.
Критериальная проверка данного коэффициента при условии, что количество объектов больше 10 ( ), осуществляется по статистике Стьюдента:
При n30 ρkh*(s) ~N(0, 1/(n-1) )
Для одного и того же эксп.мнен.Кендалл по мод.меньше Спирмена.
Билет №17. Коэффициент Кендалла, проверка на значимость.
А) , где S=P+Q (число бОльших рангов, следующих за данным, + число меньших рангов (со знаком минус)
υ(rk,rh) - минимальное число перестановок соседних элементов, или инверсий, ранжировки rk, необходимых для приведения её к ранжировке rh.
Б)для связных рангов:
Проверка на значимость:
А)
Б)
Для одного и того же эксп.мнен.Кендалл по мод.меньше Спирмена.
Билет №18. Критерий независимости для таблиц сопряженности.
Любые номинальные данные должны быть оцифрованы. (в виде таблиц логического описания или таблиц сопряженности). Рассмотрим 2 признака Х1 и Х2. Если таблица 2×2, то имеем биномиальный закон распределения. Если одна из частот <20, критер.треб.поправ.(Фишера или Йетмена)
Рассмотрим пример о заболеваемости (грипп)
|
Не заболели (y) |
Заболели ( ) |
Всего |
Привитые (x) |
72 |
28 |
100 |
Непривитые ( ) |
31 |
69 |
100 |
Всего |
103 |
97 |
200 |
H0: x и y – независимы (нал.привив.не оказ.влиян.на заболеваем.)
Теоретич.табл.,где соблюд.независим.:
|
Не заболели (y) |
Заболели ( ) |
Всего |
Привитые (x) |
1-p |
p |
100 |
Непривитые ( ) |
1-p |
p |
100 |
Всего |
103 |
97 |
200 |
P=97/200=0,485 (теоретич.вер-ть заболеть) (1-р)=1-0,485=103/200 (ожидаем.частота,привитые заболели)
Таблица ожидаемых частот:
|
Не заболели (y) |
Заболели ( ) |
Всего |
Привитые (x) |
51,5 |
48,5(=(97/200)*100) |
100 |
Непривитые ( ) |
51,5 |
48,5 |
100 |
Всего |
103 |
97 |
200 |
(Вер-ть заболеть одинакова для привитых и непривитых).
Исходная таблица – эмпирич., в ней ничего неизвестно про зависим./независим. Табл.ожид.частот-теоретич., в кот.независимы. Сравним теоретич.и эмпирич.таблицы по критерию Пирсона.
Расчетная статистика (хи-квадрат): -это вер.того, что соб.независ.
Изначально вероятность делится на 2, т.к. берем только правый хвост распределения (оно симметрично). Впоследствии, избавляясь от модуля, мы снова возвращаемся к целому распределению и перестаем делить на 2. На самом деле мы проверяли совпадение распределения наблюдаемых частот и ожидаемых частот. Если ожидаемые и наблюдаемые частоты совпадут, мы везде в расчетной статистике получим ноль, а вероятность была бы равна единицы. H0: В данном случае мы отвергаем гипотезу о равенстве распределений. Тем самым мы доказали, что x и y зависимы.
КДА номинальных (категоризованных признаков)
Любые номин.данные д.б.сначала оцифрованы (в виде табл.логич.описан. или таблиц сопряженности). Рассмотр.2 признака, табл.сопряж. w*k, общ.вид.
|
X1=1 |
2 |
… |
j |
… |
k |
∑ |
X2=1 |
n11 |
n12 |
|
n1j |
|
n1k |
n1 |
2 |
n21 |
n22 |
|
n2j |
|
n2k |
n2 |
… |
|
|
|
|
|
|
|
i |
ni1 |
ni2 |
|
nij |
|
nik |
ni |
… |
|
|
|
|
|
|
|
w |
nw1 |
nw2 |
|
nwj |
|
nwk |
nw |
∑ |
n1 |
n2 |
|
nj |
|
nk |
n |
nij-кол-во одновременного появления знач.jдля 1-го призн.и знач.i для 2-го призн.(совместн.вер-ть). n=n1+…+nw=n1+…+nk-общее число опрош.респондентов.nj-кол-во появл.знач.j для 1-го призн.ni-кол-во появл.знач.i для 2-го призн.
Табл.внутри сод.совм.вер-ти,а в ∑-обычн.вер-ти.
-индикатор связи,понятие,обратное понятию независимости.Если полож., то прям.связь.Если отрицат.,то обр.связь. Г=(γij)w*k Чем больше ненулев.эл-тов, тем больше связь в табл.сопряж.
Хар-ка квадратичной сопряженности.
А) Коэфф.связи Чупрова [0;+∞)
Б)Информационный коэфф.связи [0;+∞)
В) Коэфф.Крамера [0;1]
Дисперсии и доверит.интерв.для хар-ик.
Довер.инт.покр.0-связи нет.Довер.инт.больш.-связь слаб.Довер.инт.узк.-связь сильн.
Билет №21. Состав дисперсии элементарного признака в ФА.
Билет №32. Надежность решений, полученных методами ФА.
При необходимости проверки значимости модели ФА критерий Бартлетта.Н0: m общих факторов достаточно для объяснения выборочн.коэфф.коррел.
Билет №33. Кластерный анализ качественных многомерных данных.
Основн.пон.КА – однородность/несхожесть объектов. Метрика д.б.чувствит.к исх.данным.