- •Мсм как самостоятельная область научных знаний. Их особенности и отличия от методов классич. Статистики.
- •Основные исторические этапы развития мсм.
- •Классификация мсм. Параметрические и непараметрич. Методы, их различия.
- •Особенности социально-экономической информации. Измерение различ. Данных.
- •1) Особенности соц.-экономич. Инф-ции
- •2) Измерение разнотипных данных
- •Оцифровка неколичественной информации. Основные способы оцифровки.
- •2) Таблица логического описания:
- •4) Таблица рангов
- •6) Таблица сравнений:
- •Понятие признакового пространства. Примеры одномерного, двумерного и многомерного признакового пространства. Геометрическая интерпретация.
- •Многомерные случайные величины и их распределения. Многомерные статистические гипотезы. Примеры.
- •1) Понятие многомерной случайной величины (мсв)
- •2) Примеры наиболее часто используемых законов:
- •3) Проверка статистической гипотезы предполагает:
- •Доверительные области
- •Критерий Хотеллинга для двух многомерных выборок.
- •Критерий Бартлетта и проверка гипотезы об однородности дисперсии.
- •Груб. Ошибки. Причины их появл-ия в статистич. Сов-ти. Методы их выявл-ия.
- •Основные методы устойчивого оценивания параметров выбороч. Совокупности.
- •Корреляционно-дисперсионный анализ многомерных количественных данных.
- •Меры связи количественных и неколичественных многомерных данных. Вероятностные коэффициенты связи. Количественные многомерные данные
- •Неколичественные многомерные данные
- •2. Коэффициент Кэндалла
- •Вероятностные коэффициенты связи
- •Дисперсионный и энтропийный коэффициенты конкордации. В каких границах они изменяются, и что это означает.
- •Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости.
- •Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости.
- •Критерий независимости для таблиц сопряженности.
- •Метод главных компонент.
- •Использование главных компонент в многомерном регрессионном анализе.
- •33) Кластерный анализ качественных многомерных данных
- •34)Методы иерархического кластерного анализа. Алгоритмическая схема. Геометрическая интерпретация результатов. Основные иерархические методы:
- •3. Метод средних связей
- •Дивизивный метод
- •35)Итеративные методы:
- •39) Вычисление дискриминантных значений. Геометрическая интерпретация результатов. Оценка качества дискриминации.
- •Перечень вопросов по курсу «Многомерные статистические методы»
- •Основные исторические этапы развития мсм.
- •Гауссовское (непрерывное)
- •Общий критерий Хоттелинга:
- •Общий критерий Хоттелинга:
- •Частный критерий Хоттелинга:
- •Одномерный критерий:
- •1.Для количеств.Данных:
- •6 Иерархических методов:
Использование главных компонент в многомерном регрессионном анализе.
Применение метода главных компонент в корреляционно-регрессионном анализе дает исследователю определенные преимущества:
1) Появляется возможность значительного увеличения числа элементарных признаков, участвующих в анализе, при условии введения в регрессию небольшого числа только значимых главных компонент. При этом это не усложняет самой модели и одновременно обуславливает сокращение доли необъясненной дисперсии отклика.
2) Ортогональность главных компонент предотвращает появление эффекта мультиколлинеарности.
Линейное уравнение регрессии на главных компонентах, при условии, что значения отклика (y) измерены в натуральном масштабе, записывается:
или ,
Где - среднее значение зависимой переменной как оценка свободного член уравнения; Y – вектор оценок коэффициентов регрессии при главных компонентах. Его находят решением известного матричного уравнения, минимизирующего сумму квадратов отклонений: ; F - матрица значений главных компонент обычного вида размерностью nr.
Коэффициенты yir – это некоторые условные единицы, имеющие один масштаб измерения.
Уравнение регрессии на главных компонентах эквивалентно регрессии на стандартизированных значениях признаков: , где ; вектор - вектор стандартизированных коэффициентов регрессии.
При построении регрессионной модели возникает вопрос об оптимальном составе главных компонент. На практике рекомендуется вначале получить модель с учетом всех m главных компонент, затем с учетом вариации оценки надежности регрессионной модели и колебаний регрессионных коэффициентов число главных компонент может быть уменьшено. Незначимые для регрессии главные компоненты устанавливаются просто, по величине собственных чисел k или в ходе проверки параметров регрессии по t- или F-критериям:
, при или , при
Компонента исключается из регрессии, когда собственное число k мало, менее 75 – 90 % и одновременно несущественно участие k-ой компоненты в формировании результата , или при низких наблюденных значениях критериев t и F.
33) Кластерный анализ качественных многомерных данных
Кластерный анализ - совокупность методов, позволяющий классифицировать наблюдения, каждые из которых описывается либо матрицей объект-признак (признак-объект) - , либо матрицей предпочтений .
Целью кластерного анализа является образование групп схожих между собой элементов, образующих кластеры.
Кластер - группа, класс (англ.); сгусток, гроздь (латынь)
В-первые, кластерный анализ прозвучал в 30х гг в археологии, потом биология и т.д.
Наиболее развитая школа - французская.
В истории кластерный анализ был применен в 2000 г. в книге "Новая история Руси" Фоменко.
Методы кластерного анализа подразделяются на:
I. Иерархические (дерево, графы):
- агломеративные (объединение чего-либо)
- дивизивные (разделение чего-либо)
II. Итеративные (оптимизационные методы)
Входная информация бывает трех типов:
1) матрица объект-признак (если интересует классификация или группировка объекта) или матрица признак-объект (если хотим посмотреть структуру или связи объектов):
2) матрица предпочтений (функционал сопоставления i-го и j-го объектов) (это может быть либо матрицей расстояний, либо матрицей сходства):
3) наличие или ввод обучающей выборки (для блока дивизивных методов)
Она представлена многомерным вектором:
,
Где k – количество групп, кластеров
- количество объектов в j-ом кластере
По сути это матрица, которая подгружается в виде либо матрицы , либо матрицы .
На выходе:
Если число кластеров заранее известно, то каждый из n (m) классифицируемых многомерных наблюдений должно быть снабжено адресом (номером кластера)
Если число кластеров и их смысл заранее неизвестен, а выявляется в процессе классификации, то результатом кластерного анализа является разделение множества на однородные в статистическом смысле группы, а определенное их число выбирается нами. Результат выдается в качестве дендраграммы (дерево решений).
Рассмотрим первый тип данных
Нас будет интересовать:
1) Статистическая однородность объектов
2) Схожесть или различия между самими кластерами
3) Выбор целевой функции или оценка качества классификации
1) Цель - расклассифицировать это множество объектов на основе матрицы Х, чтобы образовались подмножества , которые при объединении образуют все множество объектов. Причем p должно быть значительно меньше n ( ). Кроме того каждое содержит объекты однородные в статистическом смысле. Т.е. если объект под номером l в статистическом смысле эквивалентен объекту под номером k, то они войдут в подмножество:
Если объект l не схож с объектом k, то они образуют разные подмножества. Причем подмножества не должны пересекаться:
Пример. Оценки студентов по десяти бальной шкале:
Критериальная функция – минимизация внутригруппового расстояния. В следующих группах оно нулевое:
Чем больше межгрупповое расстояние, тем лучше. Можно взять центры группирования каждой из группировок, найти разницу между этими центрами. Это и будет межгрупповое расстояние.
2) Объекты в кластерном анализе группируются или классифицируются по принципу сходства или различия (выбор метрики). Принцип выбора метрики заключается в том, чтобы она была наиболее информативной для измерения различия ваших объектов.
1. Если данные количественные, то чаще всего используют
- Метрику Минковского, которая базируется на принципе расстояний:
Если p = 1 – линейное (Хевингово) расстояние
Если p = 2 – Эвклидово расстояние
Если p = 3 – квадрат- Эвклидово расстояние
- Расстояние Махаланобиса:
,
Где - матрица весов в многомерном пространстве, она позволяет взвешивать каждый признак и получать более точное расстояние
2. Если мы работаем с неколичественными данными, то использовать предыдущие методы не информативно. Сначала нужно сформировать матрицу . В частности, если качественные признаки, то матрица сходства формируется:
1) по Спирману:
2) по Кендаллу
3) Коэффициент сходства
П ример:
Задана матрица расстояний для следующих объектов (4 девочки и 2 мальчика) в двумерном признаковом пространстве (рост и вес):
1 шаг. Из матрицы расстояний ищутся наиболее близкие объекты:
2 шаг. Редуцируем матрицу расстояний, исключаем из рассмотрения первого мальчика и пятую девочку. Опять находим минимальные расстояния:
3 шаг. Остается матрица 22. но мы видим, что третья и четвертая девочки различны (расстояние максимально). Их можно отнести либо в отдельные кластеры, либо в уже существующие кластеры:
Т.к. и , то 3-ий объект ближе к элементам первого кластера, чем 4-ый.
Т.к. и , следовательно, 3-ий объект ближе к элементам первого кластера, чем к элементам второго кластера, а 4-ый элемент отнесем к отдельной группе.
4 шаг. Итак, мы получили три кластера:
Графически это можно представить в виде: