- •10. Кластерный анализ
- •10.1 Процедура кластерного анализа
- •10.1.1 Основные понятия.
- •10.1.2 Характеристики кластера
- •10.1.3 Оценка качества кластеризации
- •10.1.4 Области применения кластерного анализа
- •10.2 Исходные данные для процедуры кластерного анализа
- •10.3 Меры расстояния и сходства между объектами
- •3. Квадрат евклидова расстояния.
- •10.4 Меры расстояния и сходства между кластерами. Методы объединения кластеров
- •10.5 Методы кластерного анализа
- •10.5.1 Иерархические методы кластерного анализа
- •10.5.2 Неиерархические методы кластерного анализа. Итеративные методы
- •10.5.3 Алгоритм k-средних (k-means)
- •Кластеризация осуществляется по следующему алгоритму:
- •10.5.3 Определение количества кластеров
- •10.6 Этапы процесса кластеризации
- •10.7 Сравнительный анализ иерархических и неиерархических методов кластеризации
- •10.8 Иерархический кластерный анализ в spss
10.7 Сравнительный анализ иерархических и неиерархических методов кластеризации
Перед проведением кластеризации может возникнуть вопрос, какой группе методов кластерного анализа отдать предпочтение. Выбирая между иерархическими и неиерархическими методами, необходимо учитывать следующие их особенности.
Неиерархические методы выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации. Однако при этом нужно заранее определить количество кластеров, количество итераций или правило остановки, а также некоторые другие параметры кластеризации.
Если нет предположений относительно числа кластеров, рекомендуют использовать иерархические алгоритмы. Однако если объем выборки не позволяет это сделать, возможный путь - проведение ряда экспериментов с различным количеством кластеров, например, начать разбиение совокупности данных с двух групп и, постепенно увеличивая их количество, сравнивать результаты. За счет такого "варьирования" результатов достигается достаточно большая гибкость кластеризации.
Иерархические методы, в отличие от неиерархических, отказываются от определения числа кластеров, а строят полное дерево вложенных кластеров.
Сложности иерархических методов кластеризации: ограничение объема набора данных; выбор меры близости; негибкость полученных классификаций.
Преимущество этой группы методов в сравнении с неиерархическими методами - их наглядность и возможность получить детальное представление о структуре данных.
При использовании иерархических методов существует возможность достаточно легко идентифицировать выбросы в наборе данных и, в результате, повысить качество данных. Эта процедура лежит в основе двухшагового алгоритма кластеризации. Такой набор данных в дальнейшем может быть использован для проведения неиерархической кластеризации.
Иерархические методы не могут работать с большими наборами данных, в таких случая возможно рассмотрение некоторой выборки из набора исходных данных.
10.8 Иерархический кластерный анализ в spss
Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют строки, а роль переменных - столбцы.
Для исключения вероятности того, что классификацию будут определять переменные, имеющие наибольший разброс значений используется процедура стандартизации. В SPSS применяются следующие виды стандартизации:
Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.
Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
Максимум 1. Значения переменных делятся на их максимум.
Среднее 1. Значения переменных делятся на их среднее.
Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.
Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.
Результат работы любого алгоритма кластеризации зависит от способов вычисления расстояния между объектами и определения близости между кластерами.
Для определения расстояния между парой кластеров в процессе их объединения в SPSS предусмотрены следующие методы:
Среднее расстояние между кластерами (Between-groups linkage), (устанавливается по умолчанию).
Среднее расстояние между всеми объектами кластеров с учетом расстояний внутри кластеров (Within-groups linkage).
Расстояние между ближайшими соседями - ближайшими объектами кластеров (Nearest neighbor).
Расстояние между самыми далекими соседями (Furthest neighbor).
Расстояние между центрами кластеров (Centroid clustering) или центроидный метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров без учета их объема.
Метод медиан - тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).
Проведение иерархического кластерного анализа путем агломерации представляется при помощи протокола объединения кластеров (таблица10.1) и дендрограммы.Дендрограмма для примера приведена на рис. 10.5.
В протоколе указаны такие позиции:
Stage - стадии объединения (шаг);
Cluster Combined - объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров);
Coefficients - коэффициенты.
Таблица 10.1. Порядок агломерации Cluster Combined Coefficients (протокол объединения кластеров)
Шаг |
Кластер 1 |
Кластер 2 |
Коэффициент |
1 |
9 |
10 |
,000 |
2 |
2 |
14 |
1,461E-02 |
3 |
3 |
9 |
1,461E-02 |
4 |
5 |
8 |
1,461E-02 |
5 |
6 |
7 |
1,461E-02 |
6 |
3 |
13 |
3,490E-02 |
7 |
2 |
11 |
3,651E-02 |
8 |
4 |
5 |
4,144E-02 |
9 |
2 |
6 |
5,118E-02 |
10 |
4 |
12 |
,105 |
11 |
1 |
3 |
,120 |
12 |
1 |
4 |
1,217 |
13 |
1 |
2 |
7,516 |
Так, в таблице можно увидеть порядок объединения в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной таблице больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т.д.
В колонке Коэффициент приведено расстояние между двумя кластерами, определенное на основании выбранной меры расстояния. В данном случае это квадрат евклидова расстояния, определенный с использованием стандартизированных значений.
Рис. 10.7. Дендрограмма процесса агломерации
Для определения числа кластеров анализируем изменение значений поля Coefficients: в примере это скачок с 1,217 до 7,516. Оптимальным считается количество кластеров, равное разности количества наблюдений (14) и количества шагов до скачкообразного увеличения коэффициента (12).
Следовательно, после создания двух кластеров объединений больше производить не следует, хотя визуально можно предположить наличие трех кластеров.