Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
шпоры по иис.doc
Скачиваний:
21
Добавлен:
25.09.2019
Размер:
345.6 Кб
Скачать

21.Понятие иад и этапы kdd.

В конце 80-х годов появилась концепция KDD. В отечественной среде используется термин интеллектуальный анализ данных.

Интеллектуальный анализ –это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей, который можно охарактеризовать как новые знания.

В общем случае процесс ИАД состоит из 3 стадий:

  1. Выявление закономерностей

  2. Анализ исключений и толкований в найденных закономерностях

  3. Использование найденных закономерностей для предсказания будущих значений параметра.

KDD– это процесс получения из данных знаний, в виде зависимости правил моделей позволяющих моделировать и прогнозировать различные процессы.

Причины распространения KDD:

  1. Развитие технологий автоматизированной обработки большого объема информации.

  2. Острая нехватка специалистов в области анализа данных.

  3. Потребность в тиражировании знаний менее квалифицированным пользователям.

  4. Появление на рынке программных продуктов поддерживающих KDD.

Этапы KDD:

Технологии KDDОписывают не конкретный алгоритм обработки данных или математический аппарат, а последовательность действий которую необходимо выполнить с данными. Для построения модели и получения знаний.

  1. Выборка данных – производится подготовка данных из различных источников выбираются значимые параметры данных. Для этого используются различные инструменты доступа к данным различных типов, различные конверторы. Это реализуется лучше всего в специальных хранилищах данных. В результате мы имеет исходные данные.

  2. Очистка данных исходные данные не всегда бывают надлежащего качества имеются пропуски шумы, аномальные значения и т. д. Кроме того данные могут быть противоречивыми, недостаточными или избыточными, в этом случае эти недостатки в наборах данных устраняются либо усредняются. Например замена аномалий на среднее значения. На выходе этапа имеет очищенные данные.

  3. Трансформация некоторые наборы данных необходимо привести в определенный вид. Пример- преобразование непрерывных знаний в дискретные и наоборот, сортировка, группировка. На выходе имеет трансформируемые знания.

  4. Dataminingна данном этапе строятся модели и зависимости с помощью различных алгоритмов. Смотри вопрос 2. Они позволяют моделировать процессы и получать прогнозные значения. На выходе различные модели и шаблоны.

  5. Интерпретациярезультат полученный по построенным моделям и применение этих моделей в качестве бизнес приложений. Пример: модель прогнозирования объемов продаж. На выходе имеем знания, например прогнозные значения.

Основное приемуществоKDDполученные знания(модели и зависимости) можно тиражировать. То есть полученные аналитиком модели могут использовать другие пользователи причем не вникая как эта модель была создана.

22. Задачи и методы Data Mining

  1. Задачи и методы дата Mining.

Datamining – это обнаружения в сырых данных ранее не известных не тривиальных и практически полезных знаний, необходимых для принятия решений.

Задачи решаемые методами Datamining:

  1. Классификация это отнесение объектов к одному из заранее заданных признаков(классов).

  2. Кластеризация – это группировка объектов на основе свойств описывающих объекты причем признаки. Этих объектов заранее не заданы. Объекты внутри кластера должны быть максимально похожи друг на друга и отличатся от объектов других кластеров. Часто применяется термин сегментация.

  3. Прогнозирование (регрессия) это установление зависимости непрерывных выходных параметров от входных параметров. Причем выясняется степень влияния входных параметров на выходные. Пример влияние разных факторов на объем продаж.

  4. Ассоциация выявление закономерностей между связанными событиями. Например для выявления совместно покупаемых товаров. Анализ покупательской корзины.

  5. Последовательность последовательные шаблоны, установление закономерностей между связанными во времени событий.

Методы дата майнинг для решения выше перечисленных задач используются следующие методы:

  • Дерево решений. Для решения задачи классфикации.

  • Искуственныенеиронные сети. Моделируют не линейные процессы решаемая задача это кластеризация и пронозирование.

  • Линейная регрессия. Поиск линейных зависимостей.

  • Кластерный анализ. Для решения задач кластеризации и сигментации.

  • Самоорганизующие карты Кохонина. Для задач кластеризации и сигментации.

  • Ассоциативные правила. Для выявления задач ассоциаций.

Последовательные шаблоны.