- •8.1. Факторный анализ
- •8.1.1. Сущность методов факторного анализа
- •8.1.2. Фундаментальная теорема факторного анализа Тэрстоуна
- •8.1.3. Общий алгоритм и теоретические
- •8.1.4. Метод главных компонент
- •8.1.4.1. Общая математическая модель метода
- •8.1.4.2. Вычислительные процедуры метода главных
- •8.1.4.3. Оценка уровня информативности
- •8.1.4.4. Использование метода главных компонент
- •8.2. Кластерный анализ
- •8.2.1. Общая характеристика методов
- •8.2.2. Меры сходства
- •8.2.3. Иерархический кластерный анализ
- •8.2.4. Метод к-средних
- •8.2.5. Критерии качества классификации
- •8.3. Дискриминантный анализ
- •8.3.1. Основные положения дискриминантного
- •8.3.2. Дискриминантные функции
- •8.3.3. Расчет коэффициентов дискриминантной функции
- •8.3.4. Классификация при наличии двух обучающих выборок
8.2. Кластерный анализ
8.2.1. Общая характеристика методов
кластерного анализа
Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных X1, X2, ..., Хт. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами (cluster).
В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. Например, если каждый наблюдаемый объект характеризуется двумя признаками Х1 и Х2, то при выполнении комбинационной группировки вся совокупность объектов будет разбита на группы по Х1, а затем внутри каждой выделенной группы будут образованы подгруппы по Х2. Определить принадлежность каждого объекта к той или иной группе можно, последовательно сравнивая его значения Х1 и Х2 с границами выделенных групп. Образование группы в этом случае всегда связано с указанием ее границ по каждому группировочному признаку отдельно.
В кластерном анализе используется иной принцип образования групп. Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности. Таким образом, методы кластерного анализа помогают построить научно обоснованные классификации путем выявления внутренних связей между единицами наблюдаемой совокупности.
Методы кластерного анализа позволяют решать следующие задачи:
проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;
проверку выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;
построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.
Методы кластерного анализа можно разделить на две большие группы: агломеративные (объединяющие) и дивизимные (разделяющие). Агломеративные методы последовательно объединяют отдельные объекты в группы (кластеры), а дивизимные методы расчленяют группы на отдельные объекты. В свою очередь, каждый метод как объединяющего, так и разделяющего типа может быть реализован при помощи различных алгоритмов. Отдельные примеры агломеративных и дивизимных алгоритмов рассмотрены в разд. 8.2.3. В частности, наиболее подробно описан самый доступный для понимания иерархический агломеративный кластерный анализ. Следует заметить, что как агломеративные, так и дивизимные алгоритмы трудоемки и их сложно использовать для больших совокупностей. Кроме того, результаты работы таких алгоритмов (их графическое изображение) трудно поддаются визуальному анализу.
Для удобства записи формализованных алгоритмов кластерного анализа введем следующие условные обозначения:
Х1, X2..., Хп – совокупность объектов наблюдения;
Xi = (Xi1, Xi2, ..., Xim) – i-е многомерное наблюдение в т-мерном пространстве признаков (i = 1, 2, ..., n);
dil – расстояние между i-м и l-м объектами;
zij – нормированные значения исходных переменных;
D – матрица расстояний между объектами.