11. Процесс розв’язання задачі класифікації інтелектуального аналізу даних

Классификация может быть одномерной – по одному признаку и многомерной (2 и более).

N	Возраст	Доход	Класс
1	18	25	1
2	22	100	1
3	30	70	1
4	32	120	1
5	24	15	2
6	25	22	1
7	32	50	2
8	19	45	2
9	22	75	1
10	40	90	2

Цель процесса классификации состоит в том, чтобы построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и получает значения зависимых атрибутов. Классификатор – некоторая сущность (программа, алгоритм), который по вектору признаков объекта определяет его принадлежность к какому-либо классу.

При проведении процесса классификации набор исходных данных разбивают на 2 множества: обучающее, тестовое. Обучающее множество – это множество, кот. включает данные, использ. для обучения. Тестовое множество – используется для проверки работоспособности модели.

Обучающее множество – это множество, которое включает данные, используемые для обучения. Тестовое множество – используется для проверки работоспособности модели.

Построение модели классификации:

Для построения модели классификации используются различные методы:

- метод деревьев-решений

- байесовская (наивная)

- с помощью искусствен.нейронных сетей

- метод опорних векторов

- статистические методы (линейная регрессия)

12.Задача кластерізації, як задача інтелектуального аналізу даних.

Кластерный анализ (Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к широкому классу задач обучения без учителя.

Типы входных данных

• Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.

• Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.

Матрица расстояний может быть вычислена по матрице признаковых описаний объектов бесконечным числом способов, в зависимости от того, как ввести функцию расстояния (метрику) между признаковыми описаниями. Часто используется евклидова метрика, однако этот выбор в большинстве случаев является эвристикой и обусловлен лишь соображениями удобства. Обратная задача — восстановление признаковых описаний по матрице попарных расстояний между объектами — в общем случае не имеет решения, а приближённое решение не единственно и может иметь существенную погрешность. Эта задача решается методами многомерного шкалирования. Таким образом, постановка задачи кластеризации по матрице расстояний является более общей. С другой стороны, при наличии признаковых описаний часто удаётся строить более эффективные методы кластеризации. Цели кластеризации

• Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).

• Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

• Обнаружение новизны (novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую (или фиксированную) степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Во всех этих случаях может применяться иерархическая кластеризация, когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии. Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому. Визуально таксономия представляется в виде графика, называемого дендрограммой. Классическим примером таксономии на основе сходства является биноминальная номенклатура живых существ, предложенная Карлом Линнеем в середине XVIII века. Аналогичные систематизации строятся во многих областях знания, чтобы упорядочить информацию о большом количестве объектов.

<<< < Предыдущая 1 2 3 45 / 105 6 7 8 9 10 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.02.20165.01 Mб29Metod_2_text.doc
#
20.02.20163.08 Mб36Metod_apparaty.doc
#
20.02.20162.03 Mб24Metod_текст.doc
#
20.02.20162.11 Mб28Metod_текст1898.doc
#
24.12.2018250.51 Кб14MKP 1 otveti.docx
#
24.12.2018170.18 Кб8MKP 2 otveti.docx
#
20.02.20165.26 Mб610monomers-Платэ-книга.pdf
#
20.02.20162.43 Mб17MV_3015_FKh_PZ_7-8tm.pdf
#
20.02.20161.45 Mб15MV_3018_FKh_LR_7-8tm.pdf
#
20.02.20162.61 Mб406Nabivach_V_M_Osnovy_ekologicheskogo_normirovania_i_promyshlennoy_toxikologii_2010.doc
#
20.02.20161.05 Mб13new-Полная Таблица Калорийности.doc