Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
10_Кластерный анализ.doc
Скачиваний:
275
Добавлен:
01.02.2015
Размер:
400.38 Кб
Скачать

10.7 Сравнительный анализ иерархических и неиерархических методов кластеризации

Перед проведением кластеризации может возникнуть вопрос, какой группе методов кластерного анализа отдать предпочтение. Выбирая между иерархическими и неиерархическими методами, необходимо учитывать следующие их особенности.

Неиерархические методы выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации. Однако при этом нужно заранее определить количество кластеров, количество итераций или правило остановки, а также некоторые другие параметры кластеризации.

Если нет предположений относительно числа кластеров, рекомендуют использовать иерархические алгоритмы. Однако если объем выборки не позволяет это сделать, возможный путь - проведение ряда экспериментов с различным количеством кластеров, например, начать разбиение совокупности данных с двух групп и, постепенно увеличивая их количество, сравнивать результаты. За счет такого "варьирования" результатов достигается достаточно большая гибкость кластеризации.

Иерархические методы, в отличие от неиерархических, отказываются от определения числа кластеров, а строят полное дерево вложенных кластеров.

Сложности иерархических методов кластеризации: ограничение объема набора данных; выбор меры близости; негибкость полученных классификаций.

Преимущество этой группы методов в сравнении с неиерархическими методами - их наглядность и возможность получить детальное представление о структуре данных.

При использовании иерархических методов существует возможность достаточно легко идентифицировать выбросы в наборе данных и, в результате, повысить качество данных. Эта процедура лежит в основе двухшагового алгоритма кластеризации. Такой набор данных в дальнейшем может быть использован для проведения неиерархической кластеризации.

Иерархические методы не могут работать с большими наборами данных, в таких случая возможно рассмотрение некоторой выборки из набора исходных данных.

10.8 Иерархический кластерный анализ в spss

Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют строки, а роль переменных - столбцы.

Для исключения вероятности того, что классификацию будут определять переменные, имеющие наибольший разброс значений используется процедура стандартизации. В SPSS применяются следующие виды стандартизации:

  • Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.

  • Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.

  • Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.

  • Максимум 1. Значения переменных делятся на их максимум.

  • Среднее 1. Значения переменных делятся на их среднее.

  • Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.

Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

Результат работы любого алгоритма кластеризации зависит от способов вычисления расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров в процессе их объединения в SPSS предусмотрены следующие методы:

  • Среднее расстояние между кластерами (Between-groups linkage), (устанавливается по умолчанию).

  • Среднее расстояние между всеми объектами кластеров с учетом расстояний внутри кластеров (Within-groups linkage).

  • Расстояние между ближайшими соседями - ближайшими объектами кластеров (Nearest neighbor).

  • Расстояние между самыми далекими соседями (Furthest neighbor).

  • Расстояние между центрами кластеров (Centroid clustering) или центроидный метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров без учета их объема.

  • Метод медиан - тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).

Проведение иерархического кластерного анализа путем агломерации представляется при помощи протокола объединения кластеров (таблица10.1) и дендрограммы.Дендрограмма для примера приведена на рис. 10.5.

В протоколе указаны такие позиции:

  • Stage - стадии объединения (шаг);

  • Cluster Combined - объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров);

  • Coefficients - коэффициенты.

Таблица 10.1. Порядок агломерации Cluster Combined Coefficients (протокол объединения кластеров)

Шаг

Кластер 1

Кластер 2

Коэффициент

1

9

10

,000

2

2

14

1,461E-02

3

3

9

1,461E-02

4

5

8

1,461E-02

5

6

7

1,461E-02

6

3

13

3,490E-02

7

2

11

3,651E-02

8

4

5

4,144E-02

9

2

6

5,118E-02

10

4

12

,105

11

1

3

,120

12

1

4

1,217

13

1

2

7,516

Так, в таблице можно увидеть порядок объединения в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной таблице больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т.д.

В колонке Коэффициент приведено расстояние между двумя кластерами, определенное на основании выбранной меры расстояния. В данном случае это квадрат евклидова расстояния, определенный с использованием стандартизированных значений.

Рис. 10.7. Дендрограмма процесса агломерации

Для определения числа кластеров анализируем изменение значений поля Coefficients: в примере это скачок с 1,217 до 7,516. Оптимальным считается количество кластеров, равное разности количества наблюдений (14) и количества шагов до скачкообразного увеличения коэффициента (12).

Следовательно, после создания двух кластеров объединений больше производить не следует, хотя визуально можно предположить наличие трех кластеров.