Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 7-8.doc
Скачиваний:
9
Добавлен:
25.08.2019
Размер:
1.52 Mб
Скачать

Кластерный анализ

Задача кластерного анализа состоит в разбиении исходной совокупности объектов на группы схожих, близких между собой объектов. Эти группы называют кластерами. Другими словами, кластерный анализ это один из способов классификации объектов по признакам. Разбиение по группам происходит с учетом всех группировочных признаков одновременно. Желательно, чтобы результаты классификации имели содержательную интерпретацию. Кластерный анализ находит применение в различных областях: медицина, маркетинговые исследования. Фактически, кластерный анализ является «набором» различных алгоритмов распределения объектов по кластерам.

Если данные понимать как точки в признаковом пространстве, то задача кластерного анализа формулируется как выделение "сгущений точек", разбиение совокупности на однородные подмножества объектов.

При проведении кластерного анализа обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер близости и расстояний между объектами существует великое множество. Их выбирают в зависимости от цели исследования. В частности, евклидово расстояние лучше использовать для количественных переменных, расстояние хи-квадрат - для исследования частотных таблиц, имеется множество мер для бинарных переменных.

Кластерный анализ является описательной процедурой, он не позволяет сделать никаких статистических выводов, но дает возможность провести своеобразную разведку - изучить "структуру совокупности".

Одна из концепций кластеризации состоит в построении разбиения исходного множества объектов, доставляющего оптимальное значение определенной целевой функции. Большинство алгоритмов кластеризации основано на эвристических методах. Дать рекомендации для выбора того или иного метода кластеризации можно только в общих чертах.

Пусть - объекты, каждый их которых задан набором p признаков. Распределения объектов по кластерам на однородные в некотором смысле группы должно удовлетворять критерию оптимальности, который выражается в терминах расстояния между любой парой объектов рассматриваемой совокупности.

В качестве расстояния (метрики) может быть взята любая действительная функция , определенная на множестве и удовлетворяющая следующим условиям:

  1. тогда и только тогда, когда

Выбор расстояния неоднозначен и в этом состоит вся сложность.

Наиболее популярной метрикой является евклидова. Эта метрика отвечает интуитивным представлениям близости. При этом на расстояние между объектами могут сильно влиять изменения масштабов. Например, если один из признаков был измерен в метрах, а затем его значения переведены в сантиметры, то евклидово расстояние сильно изменится и это приведет к тому, что результаты кластерного анализа могут значительно отличаться от предыдущих.

Если признаки измерены в разных единицах измерения, то требуется их предварительная нормировка. – такое преобразование исходных данных, которое приводит их в безразмерные величины.

Наиболее известные способы нормировки:

- исходное значение, -среднее и среднее квадратическое отколонение.

Наиболее употребительные метрики:

  • евклидова -значение k-го признака I-го объекта;

  • взвешенная евклидова , - вес k-го признака. Веса задаются пропорционально степени важности переменных.

Выбор меры расстояния и весов для классифицирующих переменных – очень важный этап кластерного анализа, так как от этих процедур зависят состав и количество формируемых кластеров, а также степень сходства объектов внутри кластеров.

Пример: Определим сходство меду предприятиями, если каждое из них характеризуется тремя признаками – производство продукции (млрд.руб.), стоимость основных производственных фондов (млрд.руб.), фонд заработной платы (млрд.руб.).