Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика_ШПОРЫ.docx
Скачиваний:
27
Добавлен:
03.08.2019
Размер:
206.19 Кб
Скачать

9. Метод кластеризации данных.

Кластерный анализ – совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях между ними

Методы кластерного анализа в пакете STATISTIKA.

В модуле Cluster Analysis пакета Statistika реализуются следующие методы классификации:

  1. Соединение ( древовидная кластеризация)

Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.

  1. Метод К – средних

Метод К – средних относится к группе так называемых эталонных методов кластерного анализа. Число кластеров задается пользователем.

На первом шаге определяют К- кластеров – эталонов. Далее каждый объект присоединяется к ближайшему эталону. Как только объект включается в кластер, среднее пересчитывается. После пересчета эталона объекты снова распределяются по ближайшим кластерам. Процедура заканчивается при стабилизации процессат.е при стабилизации центров тяжести.

  1. Двухвходное объединение

Кластеризация проводится одновременно как по переменным, так и по результатам наблюдений. Процедура двухвходового объединения используется в тех случаях, когда можно ожидать, что одновременная кластеризация по переменным(столбцам) и наблюдениям (строкам) дает возможность получить осмысленные кластеры.

Описательные статистики по переменным и наблюдениям, а также двумерная цветная диаграмма, на которой цветом отмечаются значения данных. По распределению цвета можно составить представление об однородных группах.

Результаты кластеризации имеют следующий вид:

Строится горизонтальная или вертикальная дендрограмма – график, на котором определены расстояния между объектами и кластерами при их последовательном объединении. Древовидная структура графика позволяет определить кластеры в зависимости от выбранного порога – заданного расстояния между кластерами.

Выводится матрица расстояний между исходными объектами

Выводятся средние и среднеквадратичные отклонения для каждого исходного объекта.

Для реализации любого метода кластеризации из группы иерархических процедур необходимо сделать следующие установки:

- Определить вид входных данных: можно вводить таблицу с координатами Выбрать переменные для анализа

- объектов либо наблюдения (строки). В последнем случае каждая строка таблицы исходных данных есть объект

- Выбрать метрику, определяющую расстояние между кластерами

- Выбрать метрику, определяющую расстояние между объектами.

8.Проверка гипотез о коэфицентах регрессии и коэфицентах корреляции.

Наибольшей популярностью при проверке гипотез о равенстве генеральных средних (математических ожиданий) пользуется t-критерий Стьюдента.

Рассмотрим подробнее особенности использования t-критерия Стьюдента. Наиболее часто t -критерий используется в двух случаях. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и опытная группа, состоящая из разных пациентов, количество которых в группах может быть различно. Во втором же случае используется так называемый парный t-критерий, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних. Поэтому эти выборки называют зависимыми, связанными.

t-критерий является наиболее часто используемым методом обнаружения различия между средними двух выборок. Например, t-критерий можно использовать для сравнения средних показателей группы пациентов, принимавших определенное лекарство, с контрольной группой, где принималось безвредное лекарство. Теоретически, t-критерий может применяться, даже если размеры выборок очень небольшие (например, 10; некоторые исследователи утверждают, что можно исследовать выборки меньшего размера), и если переменные нормально распределены (внутри групп), а дисперсии наблюдений в группах не слишком различны (см. также Элементарные понятия статистики). Предположение о нормальности можно проверить, исследуя распределение (например, визуально с помощью гистограммы) или применяя какой-либо критерий нормальности. Равенство дисперсий в двух группах можно проверить с помощью F критерия или использовать более устойчивый критерий Левена. Если условия применимости t-критерия не выполнены, следует использовать непараметрические альтернативы t-критерия (см. Непараметрическая статистика и подгонка распределения).

Чтобы применить t-критерий для независимых выборок, требуется, по крайней мере, одна независимая (группирующая) переменная (например, Пол: мужчина/женщина) и одна зависимая переменная (например, тестовое значение некоторого показателя, кровяное давление, число лейкоцитов и т.д.). С помощью специальных значений независимой переменной (эти значения называются кодами, например, мужчина и женщина) данные разбиваются на две группы. Можно произвести анализ следующих данных с помощью t-критерия, сравнивающего среднее WCC для мужчин и женщин.