8.2. Кластерный анализ

8.2.1. Общая характеристика методов

кластерного анализа

Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных X₁, X₂, ..., Х_т. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами (cluster).

В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. Например, если каждый наблюдаемый объект характеризуется двумя признаками Х₁ и Х₂, то при выполнении комбинационной группировки вся совокупность объектов будет разбита на группы по Х₁, а затем внутри каждой выделенной группы будут образованы подгруппы по Х₂. Определить принадлежность каждого объекта к той или иной группе можно, последовательно сравнивая его значения Х₁ и Х₂ с границами выделенных групп. Образование группы в этом случае всегда связано с указанием ее границ по каждому группировочному признаку отдельно.

В кластерном анализе используется иной принцип образования групп. Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности. Таким образом, методы кластерного анализа помогают построить научно обоснованные классификации путем выявления внутренних связей между единицами наблюдаемой совокупности.

Методы кластерного анализа позволяют решать следующие задачи:

проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;
проверку выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;
построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Методы кластерного анализа можно разделить на две большие группы: агломеративные (объединяющие) и дивизимные (разделяющие). Агломеративные методы последовательно объединяют отдельные объекты в группы (кластеры), а дивизимные методы расчленяют группы на отдельные объекты. В свою очередь, каждый метод как объединяющего, так и разделяющего типа может быть реализован при помощи различных алгоритмов. Отдельные примеры агломеративных и дивизимных алгоритмов рассмотрены в разд. 8.2.3. В частности, наиболее подробно описан самый доступный для понимания иерархический агломеративный кластерный анализ. Следует заметить, что как агломеративные, так и дивизимные алгоритмы трудоемки и их сложно использовать для больших совокупностей. Кроме того, результаты работы таких алгоритмов (их графическое изображение) трудно поддаются визуальному анализу.

Для удобства записи формализованных алгоритмов кластерного анализа введем следующие условные обозначения:

Х₁, X₂..., Х_п – совокупность объектов наблюдения;

X_i = (X_i₁, X_i₂, ..., X_i_m) – i-е многомерное наблюдение в т-мерном пространстве признаков (i = 1, 2, ..., n);

d_il – расстояние между i-м и l-м объектами;

z_ij – нормированные значения исходных переменных;

D – матрица расстояний между объектами.

<<< < Предыдущая 1 2 3 4 5 6 78 / 148 9 10 11 12 13 14 > Следующая >>>

Соседние файлы в папке Тер вер и мат стат

#
07.03.20151.6 Mб77Уч_гл2.doc
#
07.03.20151.21 Mб107Уч_гл3-4.doc
#
07.03.2015808.96 Кб82уч_гл5.doc
#
07.03.2015638.98 Кб149уч_гл6.doc
#
07.03.2015579.07 Кб96уч_гл7.doc
#
07.03.20152.69 Mб221уч_гл8_11.doc
#
07.03.20157.87 Mб102уч_гл9.1-9.5.doc
#
07.03.20151.03 Mб81уч_гл9.6_9.10.doc