Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

praktika3.doc

Скачиваний:

Добавлен:

11.07.2019

Размер:

1.31 Mб

Скачать

☆

1 / 21 2 > Следующая >>>

МИНОБРНАУКИ РОССИИ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

“ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ”

(ГОУ ВПО ВГУ)

Математический факультет Кафедра теории функций и геометрии

КИМ №3»

“ТЕМА: МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ СТРУКТУРЫ ОБЪЕКТОВ МЕТОДАМИ КЛАСТЕРНОГО АНАЛИЗА В МОДУЛЕ «МНОГОМЕРНЫЕ ИССЛЕДОВАТЕЛЬСКИЕ МЕТОДЫ» (НА БАЗЕ КОМПЬЮТЕРНОЙ СИСТЕМЫ STATISTICA)”

Лабораторная работа по спецкурсу «STATISTICA : компьютерный анализ данных»

Специальность 010100 – Математика, 010107 – Действительный анализ

Студент

__________

Ю.Ю.Травникова

3 курс группы

КТФиГ

Руководитель

В.Н. Донцов

к.п.н., доцент, чл.-корр. МААН

Воронеж – 2011 оглавление

§1. Постановка исследовательской задачи…………………………….………...….3

§2. Решение КИМ центроидным методом кластерного анализа с использованием евклидовой метрики …………………………….…………...………….…......4

§3. Математические результаты исследования……………………………….…....6

§4. Интерпретация результатов исследования………………………………..…..11

Литература……………………………………………………………………....................12

§1. Постановка исследовательской задачи

В таблице 1 представлены процентные показатели первичной заболеваемости раком слизистой полости рта в районах Воронежской области в расчете на 100000 населения за 5 лет (2000 – 2004 г.г.)

Таблица 1.

Матрица исходных данных для кластерного анализа

Требуется:

Провести классификацию n = 33 районов (строк) на опримальное количество кластеров, используя алгоритм центроидного метода. Результат представить в виде дендрограммы. Дать интерпретацию построенной математической модели.

§2. Решение ким центроидным методом кластерного анализа с использованием евклидовой метрики

Пусть в рабочем окне системы STATISTICA – 6 заранее создана электронная прямоугольная таблица 1 размером , где n=33 5-мерных наблюдений (строк) и m = 5 переменных (столбцов). Таблица 1 эмпирически описывает объекты Анн-Врнж (районы Воронежской области), подлежащие структурированию в поставленной методической задаче.

Подготовка к выполнению иерархической процедуры кластерного анализа. 1. Нажмем кнопку/клавишу переключателя модулей Statistics в меню системы STATISTICA - 6. В появившемся окне в группе модулей Multivariate Exploratory Techniques (Многомерные методы) выделим модуль Cluster Analysis (Кластерный анализ). На экране появится стартовая панель модуля Cluster Analysis. В списке его методов выделим/высветим группу иерархических агломеративных методов Joining (tree clustering) (объединения (дерево кластеризации)) и нажмем кнопку/клавишу Ok в правом верхнем углу панели. На экране появится диалоговое окно группы методов Joining (tree clustering).
В этом окне выберем Advanced (Продвинутый подход) и зададим параметры кластеризации. Для этого сначала выберем в левом верхнем углу кнопкой Variable переменные, участвующие в исследовании: в открывшемся вторичном диалоговом окне Select variables (Выбор переменных) нажмем сначала на кнопку/клавишу Select All (Выбрать все), а затем Ok. Мы вернемся в диалоговое окно Joining (tree clustering). В нем, нажав в поле Input (Ввод) на стрелку, выберем ситуацию Raw data (исходные данные), чтобы подчеркнуть, что мы будем обрабатывать прямоугольную матрицу исходных данных, а не квадратную матрицу расстояний между объектами. В поле Cluster выберем ситуацию Объекты (Строки), чтобы подчеркнуть, что должны классифицироваться объекты А1-А21 исходной матрицы, а не Переменные Тест1-Тест6 (столбцы), что тоже возможно.
С целью выбора агломеративного метода иерархической кластеризации зададим метод, которым будет определяться расстояние между кластерами. Для этого в поле Amalgamation (linkage) rule (Правило объединения) выберем процедуру Complete Linkage. С целью задания метрики, определяющей попарное расстояние между (здесь n=10) исходными многомерными объектами (типами В-заданий в нашей задаче), подлежащими структурированию на однородные группы, выберем в поле Distance measure (Метрика расстояний) Euclidean distances (Евклидова метрика).
После выполнения всех сделанных установок, запустим выбранную логико-вычислительную процедуру, нажав кнопку/клавишу Ok в верхнем правом углу диалогового окна Joining (tree clustering) (Объединения (дерево кластеризации)). Спустя несколько секунд откроется диалоговое окно результатов Joining Results.

Определение. Дендрограмма – визуальное изображение иерархической последовательности объединения (агломерации) объектов (наблюдений) в кластеры в виде ветвистого древовидного графика (графа).

Одним из математических результатов исследования, на основе которого строится дендрограмма, является матрица попарных расстояний между классифицируемыми объектами Анн-Врнж. Для её вывода нажмем кнопку/клавишу Distance matrix. На экране появится электронная таблица А. В ней через Анн, Ббр и т. д. обозначены исходные объекты как одноэлементные начальные кластеры.

С целью выведения на экран главного результата исследования – дендрограммы активизируем кнопку/клавишу Horisontal hierchical tree plot (Горизонтальная дендрограмма). При этом оставим без изменения установку флажка Rectangular branches, чтобы визуализировать графический объект в привычном виде. На вертикальной оси горизонтальной дендрограммы непоследовательно, но равноправно нанесены все объекты, структурно вошедшие в первичные одноэлементные кластеры. На горизонтальной оси дендрограммы откладываются расстояния между кластерами (одно- и многоэлементными). Вертикальные отрезки дендрограммы фиксируют тот пороговый уровень расстояний, на котором образуется очередной кластер. Пороговые уровни расстояний между кластерами определяются выбранным методом кластеризации, в частности, в нашем решении методом одиночной связи.

С целью выведения на экран “истории” поэтапного вычерчивания дендрограммы активизируем кнопку/клавишу Amalgamation schedule (Последовательность амальгамирования). На экране появится новая электронная таблица Б, в которой для каждого порогового уровня расстояний перечисляются исходные объекты, объединяемые в кластеры. При необходимости дескриптивного описания классифицируемых объектов можно активизировать кнопку/клавишу Descriptive statistics На экране появится электронная таблица Г.

1 / 21 2 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.12.2018127.49 Кб9Prakticheskie_raboty_5-8.doc
#
17.12.2018370.18 Кб13praktichesky_navyk__2011_LF_PF_i_FIUr.doc
#
13.11.201961.89 Mб2PraktichniRoboti_SITT.doc
#
25.11.201979.87 Кб0praktichni_zanyattya.doc
#
12.08.20192.55 Mб4Praktichni_zoopsih_novi_2011_doc.doc
#
11.07.20191.31 Mб0praktika3.doc
#
20.09.2019247.81 Кб3Praktika_2.doc
#
30.11.2018103.94 Кб2Praktika_dlya_studentov_309GS.doc
#
10.11.2019235.01 Кб2praktika_ekonomistov_Microsoft_Word.doc
#
12.11.2018318.46 Кб2Praktika_FM.doc
#
21.09.201934.5 Кб0Praktika_po_tp.docx