Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы иис.docx
Скачиваний:
5
Добавлен:
05.08.2019
Размер:
50.6 Кб
Скачать
  1. Интеллектуальный анализ данных. Типы выявляемых закономерностей data mining. Математический аппарат. Области применения технологий интеллектуального анализа данных.

Data Mining (интеллектуальный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечеткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Методы Data Mining лежат на стыке баз данных, статистики и искусственного интеллекта.

Data mining и искусственный интеллект

Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:

  • ассоциативные правила;

  • деревья решений;

  • кластеры;

  • математические функции.

Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».

Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).

В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

  • поиск ассоциативных правил или паттернов (образцов);

  • группировка объектов, кластерный анализ;

  • построение регрессионной модели.

К предсказательным задачам относятся:

  • классификация объектов (для заранее заданных классов);

  • регрессионный анализ, анализ временны́х рядов.

Выделяется типичный ряд этапов решения задач методами Data Mining:

  • Формирование гипотезы;

  • Сбор данных;

  • Подготовка данных (фильтрация);

  • Выбор модели;

  • Подбор параметров модели и алгоритма обучения;

  • Обучение модели (автоматический поиск остальных параметров модели);

  • Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;

  • Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Сфера применения Data Mining ничем не ограничена — она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко говоря, заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.

Data Mining применяется в:

  • розничной торговле

  • банковском деле

  • телекоммуникациях

  • страховании

  • медицине

  • молекулярной генетике и генной инженерии

  • прикладной химии

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять  методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.