Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кластерный_анализ.doc
Скачиваний:
10
Добавлен:
03.12.2018
Размер:
108.54 Кб
Скачать

2.1. Введение в кластерный анализ

Кластерный анализ — совокупность математических методов, предназначенных для формирования относительно «отдаленных» друг от друга групп «близких» между собой объектов по информации о расстояниях или связях (мерах близости) между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без «учителя» («Статистический словарь», М.: Финансы и статистика, 1989. — 623с).

Кластерный анализ — математическая процедура, позволяющая на основе схожести количественных значений нескольких признаков, свойственных каждому объекту (например, испытуемому) какого–либо множества, сгруппировать эти объекты в определенные классы, или кластеры. Осуществляется путем вычисления расстояния между этими объектами, прежде всего в терминах евклидовой метрики.

Кластерный анализ — это обобщенное название достаточно большого набора алгоритмов, используемых при классификации данных. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение.

Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий.

На сегодняшний день кластерный анализ находит применение в самых разнообразных научных направлениях: психология, биология, медицина, археология, история, география, экономика, филология и т.д. Например, психологи ставят цель классифицировать изучаемые признаки таким образом, чтобы содержательно описать различия между ними. Причем в этой классификации, чем выше уровень агрегации (объединения), тем меньше сходства между признаками в соответствующем классе. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии.

Например, Хартиганом (Hartigan, 1975) дан содержательный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Так, в области медицины кластеризация заболеваний, лечения заболеваний или выявления симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов, захоронений и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. То есть, всякий раз, когда необходимо классифицировать огромное количество информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Термин «кластерный анализ» впервые был предложен Трионом (Тгуоп, 1939). Слово «cluster» переводится с английского языка как гроздь, кисть, пучок, группа. По этой причине некоторое время этот вид анализа называли «гроздевым анализом». В начале 50-х годов появились публикации Р.Люиса, Е.Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа. Дальнейшее развитие кластерного анализа дали работы Р.Розенблатта по распознающему устройству (персептрону). Они же положили начало развитию теории «распознавания образов без учителя».

Биологами — Робертом Сокэлом и Питером Снитом в 1963 году была опубликована книга "Принципы численной таксономии», которая также явилась одним из этапов по разработке методов кластеризации. Авторы этой книги исходили из того, что для создания эффективных биологических классификаций процедура кластеризации должна обеспечивать использование всевозможных показателей, характеризующих исследуемые признаки, производить оценку степени сходства между этими признаками и обеспечивать размещение схожих признаков в одну и ту же группу. При этом сформированные группы должны быть достаточно «локальны», т.е. сходство объектов (признаков) внутри групп должно превосходить сходство групп между собой. В свою очередь различие и сходство признаков разных кластеров (групп) могут служить базой для осмысления происходящих процессов и выяснения их механизмов.

В эти же годы было предложено множество алгоритмов таких авторов, как Дж. Мак-Кин, Г. Болл и Д.Холл по методам К-средних; Г.Ланса и У.Уильямса. Н.Джардайна и др. — по иерархическим методам. Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые — Э.М.Браверман, А.А.Дорофеюк, И.Б.Мучник, Л.А.Растригин, Ю.И.Журавлев, И.И.Елисеева и др. В частности, в 60-70 гг. большой популярностью пользовались многочисленные алгоритмы, разработанные новосибирскими математиками: Н.Г.Загоруйко, В.Н.Елкиной и Г.С.Лбовым (например, такие алгоритмы как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и др).

Методы кластерного анализа на сегодняшний день реализуются в различных версиях статистических программ: S-PLUS, SAS, SPSS, STATISTICA, STATGRAPHICS, GENSTAT и т.д. Однако следует отметить, что большинство из них базируются на алгоритмах кластеризации, предложенных и разработанных в 60-70 гг.

Большая работа в области кластерного анализа проведена Василием Леоновым (1998). В нашем пособии мы будем опираться на теоретические разработки и примеры, предлагаемые автором в его работах и статьях посвященных вопросам кластерного анализа.