Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
praktika3.doc
Скачиваний:
0
Добавлен:
11.07.2019
Размер:
1.31 Mб
Скачать

12

МИНОБРНАУКИ РОССИИ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ”

(ГОУ ВПО ВГУ)

Математический факультет Кафедра теории функций и геометрии

КИМ №3»

ТЕМА: МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ СТРУКТУРЫ ОБЪЕКТОВ МЕТОДАМИ КЛАСТЕРНОГО АНАЛИЗА В МОДУЛЕ «МНОГОМЕРНЫЕ ИССЛЕДОВАТЕЛЬСКИЕ МЕТОДЫ» (НА БАЗЕ КОМПЬЮТЕРНОЙ СИСТЕМЫ STATISTICA)”

Лабораторная работа по спецкурсу «STATISTICA : компьютерный анализ данных»

Специальность 010100 – Математика, 010107 – Действительный анализ

Студент

__________

Ю.Ю.Травникова

3 курс группы

КТФиГ

Руководитель

В.Н. Донцов

к.п.н., доцент, чл.-корр. МААН

Воронеж – 2011 оглавление

§1. Постановка исследовательской задачи…………………………….………...….3

§2. Решение КИМ центроидным методом кластерного анализа с использованием евклидовой метрики …………………………….…………...………….…......4

§3. Математические результаты исследования……………………………….…....6

§4. Интерпретация результатов исследования………………………………..…..11

Литература……………………………………………………………………....................12

§1. Постановка исследовательской задачи

В таблице 1 представлены процентные показатели первичной заболеваемости раком слизистой полости рта в районах Воронежской области в расчете на 100000 населения за 5 лет (2000 – 2004 г.г.)

Таблица 1.

Матрица исходных данных для кластерного анализа

Требуется:

Провести классификацию n = 33 районов (строк) на опримальное количество кластеров, используя алгоритм центроидного метода. Результат представить в виде дендрограммы. Дать интерпретацию построенной математической модели.

§2. Решение ким центроидным методом кластерного анализа с использованием евклидовой метрики

Пусть в рабочем окне системы STATISTICA – 6 заранее создана электронная прямоугольная таблица 1 размером , где n=33 5-мерных наблюдений (строк) и m = 5 переменных (столбцов). Таблица 1 эмпирически описывает объекты Анн-Врнж (районы Воронежской области), подлежащие структурированию в поставленной методической задаче.

  1. Подготовка к выполнению иерархической процедуры кластерного анализа. 1. Нажмем кнопку/клавишу переключателя модулей Statistics в меню системы STATISTICA - 6. В появившемся окне в группе модулей Multivariate Exploratory Techniques (Многомерные методы) выделим модуль Cluster Analysis (Кластерный анализ). На экране появится стартовая панель модуля Cluster Analysis. В списке его методов выделим/высветим группу иерархических агломеративных методов Joining (tree clustering) (объединения (дерево кластеризации)) и нажмем кнопку/клавишу Ok в правом верхнем углу панели. На экране появится диалоговое окно группы методов Joining (tree clustering).

  2. В этом окне выберем Advanced (Продвинутый подход) и зададим параметры кластеризации. Для этого сначала выберем в левом верхнем углу кнопкой Variable переменные, участвующие в исследовании: в открывшемся вторичном диалоговом окне Select variables (Выбор переменных) нажмем сначала на кнопку/клавишу Select All (Выбрать все), а затем Ok. Мы вернемся в диалоговое окно Joining (tree clustering). В нем, нажав в поле Input (Ввод) на стрелку, выберем ситуацию Raw data (исходные данные), чтобы подчеркнуть, что мы будем обрабатывать прямоугольную матрицу исходных данных, а не квадратную матрицу расстояний между объектами. В поле Cluster выберем ситуацию Объекты (Строки), чтобы подчеркнуть, что должны классифицироваться объекты А1-А21 исходной матрицы, а не Переменные Тест1-Тест6 (столбцы), что тоже возможно.

  3. С целью выбора агломеративного метода иерархической кластеризации зададим метод, которым будет определяться расстояние между кластерами. Для этого в поле Amalgamation (linkage) rule (Правило объединения) выберем процедуру Complete Linkage. С целью задания метрики, определяющей попарное расстояние между (здесь n=10) исходными многомерными объектами (типами В-заданий в нашей задаче), подлежащими структурированию на однородные группы, выберем в поле Distance measure (Метрика расстояний) Euclidean distances (Евклидова метрика).

  4. После выполнения всех сделанных установок, запустим выбранную логико-вычислительную процедуру, нажав кнопку/клавишу Ok в верхнем правом углу диалогового окна Joining (tree clustering) (Объединения (дерево кластеризации)). Спустя несколько секунд откроется диалоговое окно результатов Joining Results.

Определение. Дендрограмма – визуальное изображение иерархической последовательности объединения (агломерации) объектов (наблюдений) в кластеры в виде ветвистого древовидного графика (графа).

Одним из математических результатов исследования, на основе которого строится дендрограмма, является матрица попарных расстояний между классифицируемыми объектами Анн-Врнж. Для её вывода нажмем кнопку/клавишу Distance matrix. На экране появится электронная таблица А. В ней через Анн, Ббр и т. д. обозначены исходные объекты как одноэлементные начальные кластеры.

С целью выведения на экран главного результата исследования – дендрограммы активизируем кнопку/клавишу Horisontal hierchical tree plot (Горизонтальная дендрограмма). При этом оставим без изменения установку флажка Rectangular branches, чтобы визуализировать графический объект в привычном виде. На вертикальной оси горизонтальной дендрограммы непоследовательно, но равноправно нанесены все объекты, структурно вошедшие в первичные одноэлементные кластеры. На горизонтальной оси дендрограммы откладываются расстояния между кластерами (одно- и многоэлементными). Вертикальные отрезки дендрограммы фиксируют тот пороговый уровень расстояний, на котором образуется очередной кластер. Пороговые уровни расстояний между кластерами определяются выбранным методом кластеризации, в частности, в нашем решении методом одиночной связи.

С целью выведения на экран “истории” поэтапного вычерчивания дендрограммы активизируем кнопку/клавишу Amalgamation schedule (Последовательность амальгамирования). На экране появится новая электронная таблица Б, в которой для каждого порогового уровня расстояний перечисляются исходные объекты, объединяемые в кластеры. При необходимости дескриптивного описания классифицируемых объектов можно активизировать кнопку/клавишу Descriptive statistics На экране появится электронная таблица Г.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]