Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
n1.doc
Скачиваний:
51
Добавлен:
12.02.2016
Размер:
1.67 Mб
Скачать

15.3.4. Кластерный анализ

Кластерный анализ — метод классификации объектов (анкет, признаков, ячеек таблицы сопряженности) объединяющий способы классификации при отсутствии предварительных или экспертных данных о группировании информации.

Другие названия кластерного анализа:

  • таксономия,

  • распознавание образов.

С помощью кластерного анализа можно разделить совокупность данных на однородные группы таким образом, что различия между объектами одной группы оказываются значительно меньшими, чем между объектами разных групп.

Важнейшим свойством кластерного анализа, определяющим его широкое применение при анализе массовой информации, является то, что он не опирается на предположение о нормальном распределении исходных данных может оперировать с признаками, распределенными по любому закону.

В кластерном анализе используются, признаки, измеренные как в количественных (интервальная и отношений), так и в качественных (номинальная, ранговая) шкалах.

Для качественных показателей, особенно представленных в дихотомической шкале, чаще всего используются меры связи или подобия: хи-квадрат (х2) и родственные ему меры, различные коэффициенты сопряженности.

Для количественной информации это обычные коэффициенты корреляции; для данных, измеренных в ранговой шкале — коэффициенты ранговой корреляции Спирмена и Кендалла.

Кластерный анализ позволяет провести классификацию одновременно по совокупности многих признаков. Его также можно использовать для объединения в группу (кластер) как объектов, так и их признаков. В последнем случае кластерный анализ сходен с факторным анализом.

Большое значение для некоторых видов кластерного анализа имеет предварительная нормализация (стандартизация) исходных данных, в частности, для количественных переменных — выраже-

240

ние отклонения каждого конкретного значения признака от его среднего арифметического в долях среднеквадратического отклонения. Это необходимо для того, чтобы привести к одному масштабу переменные различного порядка либо различного диапазона вариабельности.

Основные виды кластерного анализа:

  • иерархический, в котором различают прямые, или объединительные (агломеративные) процессы кластеризации и обратные, или разделительные (дивизимные);

  • агломеративные виды кластерного анализа начинаются с объединения в одну группу двух наиболее близких между собой объектов; на следующих этапах объединяются следующие по близости объекты, причем уже полученные ранее группы также считаются объектами. Процесс продолжается до тех пор, пока все объекты, участвующие в кластерном анализе, не объединятся в одну группу (кластер);

  • дивизимные виды кластерного анализа начинаются с разбиения всей совокупности объектов на две группы и заканчиваются, когда количество групп достигнет количества объектов;

  • таксономический, цель классификации в котором состоит в получении кластеров с минимальной суммой квадратов расстояний между объектами и расстоянием внутри кластера относительно среднего;

  • факторный, предполагающий выполнение — техники факторного анализа методами главных компонент, главных факторов, максимального правдоподобия.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]