Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовая ИТ Бычков.doc
Скачиваний:
7
Добавлен:
16.11.2019
Размер:
273.92 Кб
Скачать

Типы закономерностей, выявляемых методами Data Mining

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:

  • ассоциация

  • последовательность

  • классификация

  • кластеризация

  • прогнозирование

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Если существует цепочка связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Традиционные логические методы Data Mining

Особую ценность в обнаружении закономерностей имеют логические методы. Эти методы позволяют находить в данных логические цепочки (правила), характерные для одной группы объектов (записей БД) и не характерные для других групп.

На основе выявляемых логических правил решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Логические методы работают в условиях разнородной информации. Их результаты эффективны и прозрачны для восприятия.

Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, ТЕМП), либо строят так называемые деревья решений (decision tree — методы CART, CHAID, ID3), дающие полезные результаты только в случае независимых признаков. Известные эволюционные методы (в частности, генетические алгоритмы) используют сильные эвристические допущения и также далеко не гарантируют нахождения оптимума.

  1. Характеристика новой технологии

Новая технология, разработанная в лаборатории прикладной информатики СПИИРАН, основывается на представлениях специальной локальной геометрии. В этой геометрии каждый объект существует в собственном локальном пространстве событий с индивидуальной метрикой. За счет свойств локальных пространств процедура поиска логических закономерностей в данных получает геометрическое истолкование.

Перебор вариантов при поиске логических закономерностей методами локальной геометрии практически отсутствует. Поиск осуществляется с помощью модифицированного аппарата линейной алгебры. При этом новая технология позволяет обнаруживать “лучшие” (наиболее полные при заданной точности) логические правила для каждой записи в базе данных. Также важным моментов является возможность распараллеливания многих операций, лежащих в основе применяемых алгоритмов.

Результаты, полученные по новой технологии, выдаются в виде таблицы логических правил, ЕСЛИ … ТО с указанием их характеристик (точности и полноты) и дендрограммы логических правил с описанием обобщающих понятий и метапонятий.

Разработанная технология обнаружения закономерностей в базах данных методами локальной геометрии отнесена к важнейшим результатам 1998 г. в отчете о деятельности РАН.

Использование этой технологии способно существенным образом повысить “уровень интеллектуальности” хранилища данных и способствовать эффективному решению задач прогнозирования, выявления стереотипных схем и шаблонов в структуре анализируемой информации.