4. Кластерный анализ

4.1. Постановка задачи группировки данных

Задача состоит в том ,чтобы на основании данных , находящихся в множестве Х разбить их на m групп таким образом , чтобы

Такое разбиение должно отвечать некоторому критерию сходства , т.е. элементы из одного класса отвечают критерию сходства, а элементы из разных классов- нет.

Имеется некоторая целевая функция, которая определяет правило, по которому мы относим элементы к тому или иному классу .Предполагается , что каждый элемент относится строго к одному классу- это детерминированная постановка задачи .

Кластеризация может быть и нечетной . Может быть вероятностная постановка задачи кластеризации .

Существует задача разделения смесей, когда по совместной выборке необходимо оценить характеристики классов.

Мы будем рассматривать кластерный анализ в детерминированном смысле .

Задача классификации может решаться очень успешно , если вначале провести кластеризацию.

Задача кластеризации:

1)Изучение данных

2)Использование кластеров для более правильного решения задачи классификации.

На чем базируется задача кластеризации:

Результат кластеризации зависит от критерия, по которому будет проходить кластеризация. Большинство методов основано на понятии расстояния между объектами.

4.2 Пример

Х={3,4,7,4,3,3,4,4}

Сумма квадратов отклонения:

Внутригрупповые квадраты отклонения (критерий- это минимум внутригруппового отклонения)

w₁=0

w₂=0

w₃=0

w=w₁+w₂+w₃=0

Все метрические методы основаны функции расстояния между объектами.

Функция расстояния

При рассмотрении задачи кластеризации применяются различные функции расстояния.

N	Наименование	Формула
1	Евклидово расстояние
2	Квадрат Евклидова расстояния
3	L₁-норма
4	Supremum	Обычно Sup сводится к максимуму. (Расстояние Чебышева)
5	L_p- расстояние (расстояние Минковского)
6	-норма
7	Расстояние Махланобиса
8	Для бинарных данных: расстояние Хемминга.