- •Воронеж – 2011 оглавление
- •§1. Постановка исследовательской задачи
- •Матрица исходных данных для кластерного анализа
- •§2. Решение ким центроидным методом кластерного анализа с использованием евклидовой метрики
- •§3. Математические результаты исследования
- •§4. Интерпретация результатов исследования
- •Литература
МИНОБРНАУКИ РОССИИ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
“ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ”
(ГОУ ВПО ВГУ)
Математический факультет Кафедра теории функций и геометрии
КИМ №3»
“ТЕМА: МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ СТРУКТУРЫ ОБЪЕКТОВ МЕТОДАМИ КЛАСТЕРНОГО АНАЛИЗА В МОДУЛЕ «МНОГОМЕРНЫЕ ИССЛЕДОВАТЕЛЬСКИЕ МЕТОДЫ» (НА БАЗЕ КОМПЬЮТЕРНОЙ СИСТЕМЫ STATISTICA)”
Лабораторная работа по спецкурсу «STATISTICA : компьютерный анализ данных»
Специальность 010100 – Математика, 010107 – Действительный анализ
Студент |
__________
|
Ю.Ю.Травникова |
3 курс группы КТФиГ |
Руководитель |
|
В.Н. Донцов |
к.п.н., доцент, чл.-корр. МААН |
Воронеж – 2011 оглавление
§1. Постановка исследовательской задачи…………………………….………...….3
§2. Решение КИМ центроидным методом кластерного анализа с использованием евклидовой метрики …………………………….…………...………….…......4
§3. Математические результаты исследования……………………………….…....6
§4. Интерпретация результатов исследования………………………………..…..11
Литература……………………………………………………………………....................12
§1. Постановка исследовательской задачи
В таблице 1 представлены процентные показатели первичной заболеваемости раком слизистой полости рта в районах Воронежской области в расчете на 100000 населения за 5 лет (2000 – 2004 г.г.)
Таблица 1.
Матрица исходных данных для кластерного анализа
Требуется:
Провести классификацию n = 33 районов (строк) на опримальное количество кластеров, используя алгоритм центроидного метода. Результат представить в виде дендрограммы. Дать интерпретацию построенной математической модели.
§2. Решение ким центроидным методом кластерного анализа с использованием евклидовой метрики
Пусть в рабочем окне системы STATISTICA – 6 заранее создана электронная прямоугольная таблица 1 размером , где n=33 5-мерных наблюдений (строк) и m = 5 переменных (столбцов). Таблица 1 эмпирически описывает объекты Анн-Врнж (районы Воронежской области), подлежащие структурированию в поставленной методической задаче.
Подготовка к выполнению иерархической процедуры кластерного анализа. 1. Нажмем кнопку/клавишу переключателя модулей Statistics в меню системы STATISTICA - 6. В появившемся окне в группе модулей Multivariate Exploratory Techniques (Многомерные методы) выделим модуль Cluster Analysis (Кластерный анализ). На экране появится стартовая панель модуля Cluster Analysis. В списке его методов выделим/высветим группу иерархических агломеративных методов Joining (tree clustering) (объединения (дерево кластеризации)) и нажмем кнопку/клавишу Ok в правом верхнем углу панели. На экране появится диалоговое окно группы методов Joining (tree clustering).
В этом окне выберем Advanced (Продвинутый подход) и зададим параметры кластеризации. Для этого сначала выберем в левом верхнем углу кнопкой Variable переменные, участвующие в исследовании: в открывшемся вторичном диалоговом окне Select variables (Выбор переменных) нажмем сначала на кнопку/клавишу Select All (Выбрать все), а затем Ok. Мы вернемся в диалоговое окно Joining (tree clustering). В нем, нажав в поле Input (Ввод) на стрелку, выберем ситуацию Raw data (исходные данные), чтобы подчеркнуть, что мы будем обрабатывать прямоугольную матрицу исходных данных, а не квадратную матрицу расстояний между объектами. В поле Cluster выберем ситуацию Объекты (Строки), чтобы подчеркнуть, что должны классифицироваться объекты А1-А21 исходной матрицы, а не Переменные Тест1-Тест6 (столбцы), что тоже возможно.
С целью выбора агломеративного метода иерархической кластеризации зададим метод, которым будет определяться расстояние между кластерами. Для этого в поле Amalgamation (linkage) rule (Правило объединения) выберем процедуру Complete Linkage. С целью задания метрики, определяющей попарное расстояние между (здесь n=10) исходными многомерными объектами (типами В-заданий в нашей задаче), подлежащими структурированию на однородные группы, выберем в поле Distance measure (Метрика расстояний) Euclidean distances (Евклидова метрика).
После выполнения всех сделанных установок, запустим выбранную логико-вычислительную процедуру, нажав кнопку/клавишу Ok в верхнем правом углу диалогового окна Joining (tree clustering) (Объединения (дерево кластеризации)). Спустя несколько секунд откроется диалоговое окно результатов Joining Results.
Определение. Дендрограмма – визуальное изображение иерархической последовательности объединения (агломерации) объектов (наблюдений) в кластеры в виде ветвистого древовидного графика (графа).
Одним из математических результатов исследования, на основе которого строится дендрограмма, является матрица попарных расстояний между классифицируемыми объектами Анн-Врнж. Для её вывода нажмем кнопку/клавишу Distance matrix. На экране появится электронная таблица А. В ней через Анн, Ббр и т. д. обозначены исходные объекты как одноэлементные начальные кластеры.
С целью выведения на экран главного результата исследования – дендрограммы активизируем кнопку/клавишу Horisontal hierchical tree plot (Горизонтальная дендрограмма). При этом оставим без изменения установку флажка Rectangular branches, чтобы визуализировать графический объект в привычном виде. На вертикальной оси горизонтальной дендрограммы непоследовательно, но равноправно нанесены все объекты, структурно вошедшие в первичные одноэлементные кластеры. На горизонтальной оси дендрограммы откладываются расстояния между кластерами (одно- и многоэлементными). Вертикальные отрезки дендрограммы фиксируют тот пороговый уровень расстояний, на котором образуется очередной кластер. Пороговые уровни расстояний между кластерами определяются выбранным методом кластеризации, в частности, в нашем решении методом одиночной связи.
С целью выведения на экран “истории” поэтапного вычерчивания дендрограммы активизируем кнопку/клавишу Amalgamation schedule (Последовательность амальгамирования). На экране появится новая электронная таблица Б, в которой для каждого порогового уровня расстояний перечисляются исходные объекты, объединяемые в кластеры. При необходимости дескриптивного описания классифицируемых объектов можно активизировать кнопку/клавишу Descriptive statistics На экране появится электронная таблица Г.