Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпоры Козлов.doc
Скачиваний:
9
Добавлен:
21.04.2019
Размер:
677.38 Кб
Скачать

Этапы иад

  1. Подготовка исходного набора данных. Данные из различных источников консолидируются, приводятся к одному формату, производится выборка значимых данных. Для этого средство ИАД должно иметь различные инструменты доступа к источникам разных типов. На выходе имеем исходные данные, приведенные к одному формату.

  2. Предобработка (очистка данных). Реальные данные редко бывают нужного качества: могут содержать пропуски, шумы, аномальные значения. Могут быть противоречивы, избыточны, содержать ошибки. Это все устраняется на данном этапе с помощью математических приемов, статистических приемов. На выходе имеем очищенные данные.

  3. Трансформация данных. Он необходим для тех методов анализа, которые требуют исходные данные в определенном формате. Определено представление данных. Здесь применяется так называемое скользящее окно, приведение типов, сортировка, группировка, преобразование непрерывных значений в дискретные и наоборот. На выходе мы имеем трансформированные данные.

Первые 3 этапа это этапы подготовки данных.

  1. Data Mining. На данном этапе строятся модели, новые зависимости, которые характеризуются как знания. При этом используются различные методы: см. вопрос 2. На выходе имеем шаблоны и модели, иными словами знания. Этап проводит аналитик.

  2. Пост обработка (интерпретация). Это применение пользователем полученных знаний для решения бизнес – задач: прогнозирование, моделирование, планирование. На выходе имеем знание о будущем поведении системы.

Таким образом, полученные в результате KDD знания можно тиражировать. То есть построенную аналитиком модель могут применять другие пользователи без необходимости понимать, как модель была построена.

22 Методы, используемые в Data Mining

Data Mining – это обнаружение в данных ранее не известных и практически полезных знаний, необходимых для принятия решений. Такие знания описывают новые связи между свойствами объектов и позволяют предсказывать новые признаки и значения.

  1. Деревья решений в виде ориентированного графа. Применяется для решений задач классификации. Дерево строится по определенному алгоритму. Например, CART, C4.5.

  2. Искусственные нейронные сети. Для решений задач регрессии и классификации. Однако в отличии от дерева решений нейронные сети не способны объяснять выдаваемое решение. Позволяет моделировать нелинейные процессы.

  3. Линейная регрессия. Для поиска линейной зависимости.

  4. Кластерный анализ. Для решений задач сегментации. В кластерном анализе нет ограничений на вид рассматриваемых объектов.

  5. Самоорганизующие карты (карты Кохонена). Для решений задач кластеризации и сегментирования. Является разновидностью нейронной сети.

  6. Ассоциативное правило

  7. Последовательные шаблоны

23 Хранилище данных и основные понятия olap

Хранилище данных – это разновидность систем хранения, ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивость и хронологию данных, а так же высокую скорость выполнения аналитических запросов.

Хранилище данных консолидирует информацию из различных источников:

1. Источники от деятельности организации:

  • Состояние склада;

  • Рекламная компания;

  • История продаж;

  • Маркетинговые исследовании собственные.

2. Информация от внешних источников:

  • Прайс-листы конкурентов;

  • Состояние рынка;

  • Мнения и предпочтения клиентов;

  • Курс валюты;

  • Статистические данные;

  • Другие.

Отличия хранилища данных от базы данных:

  1. Цель создания. Хранилище данных консолидирует информацию, необходимую для осуществления задач стратегического планирования и управления (среднесрочная и долгосрочная перспектива). База данных содержит информацию для оперативного управления, то есть на текущий момент.

  2. Динамика изменения данных. Базы данных характеризуются высокой динамичностью изменения данных, вплоть до удаления. Хранилище данных мало динамично и данные не удаляются, а хранятся с накоплением.

Основные положения концепции хранилища данных

Основные положения концепции:

  1. Предметная ориентированность, то есть разработка с учетом специфики предметной области, а не аналитических приложений, которые предполагается использовать.

  2. Интегрированность, то есть возможность загрузки в хранилище данных из источников с различными форматами. Причем в хранилище данных они должны быть приведены к единому формату.

  3. Не изменчивость, то есть данные не должны удаляться, должны только добавляться, причем в хронологичном порядке.

  4. Хронологическая поддержка.

24 Аналитическая платформа Deductor: назначение, состав и структура.

Аналитическая платформа состоит из 5 частей:

  1. DEDUCTOR Warehouse – это хранилище данных, консолидирующее данные из различных источников.

  2. Deductor Studio – приложение, позволяющее реализовать этапы ИАД, включает различные методы Data Mining, является рабочим местом аналитика.

  3. Deductor Viewer – рабочее место конечного пользователя, применяющего готовые решения, полученные аналитиком в Deductor Studio.

  4. Deductor Server – служба, обеспечивающая удаленную обработку данных через Deductor Studio.

  5. Eductor Client – клиентская часть для доступа к Deductor Server.

Существуют 3 варианта поставки Deductor:

  1. Enterprise – для корпоративного использования, включает в себя все 5 элементов.

  2. Deductor Professional – включает первые 3 элемента, предназначен для небольших компаний и однопользовательской работы (для работы требуется USB ключ)

  3. Deductor Academics – включает первые 3 элемента, но имеет возможность работать только с текстовыми исходными данными в формате txt, предназначен для обучения.

25 Методы извлечения знаний.

В принцип классификации заложен источник знаний. Поэтому выделяют:

  1. Коммуникативные методы, которые охватывают все виды контактов с живым источником знаний;

  2. Текстологические методы, касаются методов извлечения знаний из текстовых документов.

Коммуникативные методы разделяются на 2 большие группы: пассивные коммуникативные методы и активные коммуникативные методы. Активные методы разделяются на 2 подгруппы: индивидуальные и групповые. К пассивным относится: наблюдение, протоколы мыслей в слух, а так же лекции.

К индивидуальным коммуникативным активным методам относятся: анкетирование, интервью, диалог, а так же экспертные игры.

Групповые активные коммуникативные методы: мозговой штурм, круглый стол, ролевые игры.

К текстологическим методам относится: анализ литературы, анализ текстов (документов), анализ учебников.

26 Пассивные коммуникативные методы извлечения знаний.

  1. Наблюдение. Инженер по знаниям находиться непосредственно рядом с экспертом во время его профессиональной деятельности. Эксперту необходимо объяснить цель наблюдений и попросить максимально комментировать свои действия. Инженер по знаниям записывает все действия эксперта, его реплики, объяснения. Можно снять на видеокамеру. Непременное условие: не вмешательство в работу эксперта. Различают наблюдение за реальным процессом и наблюдение за имитацией процесса.

  2. Анализ протоколов мыслей вслух. Похож на наблюдение, однако эксперта просят не только прокомментировать действия и решения, но и объяснить эти действия и решения. Инженер по знаниям протоколирует эти объяснения (мысли вслух). Затем «расшифровывает» эти протоколы самостоятельно. Это наиболее приемлемый способ извлечения знаний для эксперта.

  3. Лекции. Самый древний способ передачи знаний. Основное условие это хорошая подготовка лектора и умение грамотно законспектировать речь лектора. Особенность данного метода: лектору заранее объявляется тема лекции, поэтому он может заранее структурировать материал в нужной последовательности, спланировать ход рассуждений, чтобы более качественно донести до слушателей материал. Слушатель должен грамотно законспектировать материал.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]