Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
10_Кластерный анализ.doc
Скачиваний:
275
Добавлен:
01.02.2015
Размер:
400.38 Кб
Скачать

10.1.3 Оценка качества кластеризации

Оценка качества кластеризации может быть проведена на основе следующих процедур:

  • установление контрольных точек и проверка на полученных кластерах;

  • определение стабильности кластеризации путем добавления в модель новых переменных;

  • создание и сравнение кластеров с использованием различных методов. Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением. Однако создание схожих кластеров различными методами указывает на правильность кластеризации;

  • создание и сравнение кластеров на основании выборок из совокупности (при большом количестве объектов).

10.1.4 Области применения кластерного анализа

Кластерный анализ применяется в различных областях, если нужно классифицировать большое количество информации, при этом априорная информация о существовании групп отсутствует. Так, в медицине используется кластеризация заболеваний, лечения заболеваний или их симптомов, а также таксономия пациентов, препаратов и т.д. В археологии устанавливаются таксономии каменных сооружений и древних объектов и т.д.

В маркетинге это может быть задача сегментации конкурентов и потребителей, поставщиков, товаров. Одной из наиболее важных задач при применении кластерного анализа в маркетинговых исследованиях является анализ поведения потребителя, а именно: группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение. Важной задачей, которую может решить кластерный анализ, является позиционирование, т.е. определение ниши, в которой следует позиционировать новый продукт, предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствующие характеристики товара для возможности попадания в этот сегмент. С помощью анализа такой карты возможно определение новых, незанятых ниш на рынке, в которых можно предлагать существующие товары или разрабатывать новые.

Кластерный анализ также может быть удобен, например, для анализа клиентов компании. Для этого все клиенты группируются в кластеры, и для каждого кластера вырабатывается индивидуальная политика. Такой подход позволяет существенно сократить объекты анализа, и, в то же время, индивидуально подойти к каждой группе клиентов.

В менеджменте примером задачи кластеризации будет разбиение персонала на различные группы, классификация потребителей и поставщиков, выявление схожих производственных ситуаций, при которых возникает брак. В социологии задача кластеризации - разбиение респондентов на однородные группы.

10.2 Исходные данные для процедуры кластерного анализа

Допустим, имеется набор данных , включающий несколько наблюдений, каждое из которых характеризуется двумя признаками и . Данные по ним могут быть представлены в виде диаграммы рассеивания (рис. 10.2.) Каждое наблюдение представляет собой точку на плоскости.

Рис. 10.2 Диаграмма рассеивания переменных и .

Наблюдения (объекты), которые по значениям и "похожи" друг на друга, принадлежат к одной группе (кластеру); объекты из разных кластеров не похожи друг на друга.

Критерием для определения схожести и различия кластеров является расстояние между точками на диаграмме рассеивания. Существует несколько способов определения меры расстояния (или меры близости) между кластерами. Наиболее распространенный способ - вычисление евклидова расстояния между двумя точками. В двумерном признаковом пространстве оно определяется по формуле:

В пространстве трех измерений (такая ситуация представлена на рис. 10.3, формула приобретает вид:

Рис. 10.3. Расстояние между двумя точками в пространстве трех измерений

В общем случае переменные, характеризующие признаки, измеряются по разным шкалам и их численные значения могут существенно отличаться друг от друга. При расчете величины расстояния между точками, отражающими положение объектов в пространстве их свойств, переменная, имеющая большие значения, будет практически полностью доминировать над переменной с малыми значениями. Таким образом, из-за неоднородности единиц измерения признаков становится невозможно корректно рассчитать расстояния между точками.

Эта проблема решается при помощи предварительной стандартизации переменных. Стандартизация (standardization) или нормирование (normalization) приводит значения всех преобразованных переменных к единому диапазону значений путем выражения через отношение этих значений к некой величине, отражающей определенные свойства конкретного признака. Существуют различные способы нормирования исходных данных.

Наиболее распространенные способы:

  • центрирование и нормирование переменных ;

  • вычисление вклада или отношения переменных к среднему или максимальному значению

; ;

  • вычисление вклада или отношения разности между переменной и средним значением к размаху .

Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо разделимы по одному признаку и не разделимы по другому, то после нормирования дискриминирующие возможности первого признака будут уменьшены в связи с усилением «шумового» эффекта второго.

Наряду со стандартизацией переменных, существует вариант придания каждой из них определенного коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут выступать экспертные оценки, полученные в ходе опроса экспертов - специалистов предметной области. Полученные произведения нормированных переменных на соответствующие веса позволяют получать расстояния между точками в многомерном пространстве с учетом неодинакового веса переменных.

В ходе экспериментов возможно сравнение результатов, полученных с учетом экспертных оценок и без них, и выбор лучшего из них.