Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
FuncCls1.doc информатика.doc
Скачиваний:
73
Добавлен:
02.03.2016
Размер:
421.38 Кб
Скачать

4.3.4. Интеллектуальный анализ данных (иад)

4.3.4.1. Терминология

Интеллектуальный анализ данных (ИАД, извлечение знаний – ИЗ, англ. Data MiningDM) – процесс обнаружения в сырых данных новых, нетривиальных, интерпретируемых, практически полезных знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Сырыми данными (raw data) называются необработанные данные, сокращение объема которых не производилось за счет замены некоторых значений величинами, производными от них (например, средними значениями).

Разновидности ИАД: проверка гипотез (verification-driven data mining – VDDM) и поиск закономерностей (discovery-driven data mining – DDDM).

DDDM использует концепцию паттернов (шаблонов), отражающих фрагменты многоаспектных отношений в предметной области. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных. Поиск такого рода шаблонов не должен ограничиваться априорными предположениями о структуре выборки и распределениях значений анализируемых показателей.

VDDM основывается, главным образом, на методах матстатистики. Ограничения на использование методов матстатистики накладывают следующие факторы, свойственные реальным задачам обработки данных:

  • неограниченный объем;

  • пропуски;

  • разнородность данных (количественные, качественные, текстовые);

  • требование интерпретируемости результатов;

  • простота пользования (пользователь инструмента ИАД не обязан быть ни математиком, ни инженером).

Основной причиной несоответствия методов математической статистики требованиям ИАД является оперирование с фактически фиктивными величинами (типа "средняя температура по палате"). Основное применение матстатистики в области ИАД – грубый оценочный анализ.

4.3.4.2. Теоретические основы ИАД. Типы закономерностей и примеры применения ИАД

ИАД основан на методологии, называемой "Обнаружение знаний в базах данных" (knowledge discovery in databases – KDD). Ее определяют как мультидисциплинарную область, возникшую на базе:

  • теории баз данных (DW, OLAP),

  • теории искусственного интеллекта (распознавание образов, теория экспертных систем, нейросетевая технология),

  • математической статистики.

Методы ИАД позволяют выделять следующие основные типы закономерностей:

  1. Ассоциация – выявление связи (совместности) нескольких событий.

  2. Последовательность – ассоциация с учетом временной составляющей.

  3. Классификация – выделение признаков классов (сгруппированных данных).

  4. Кластеризация – формирование классов.

  5. Прогнозирование.

Примеры анализа закономерностей указанных типов при решении задач в различных предметных областях приведены в таблице 13.

Таблица 13 – Примеры применения ИАД

Задачи

Комментарии

Закономерности

Розничная торговля

Анализ покупательской корзины (сходства)

Выявление товаров, которые стремятся покупать вместе. Применение - реклама, стратегия создания запасов и размещения товаров

Совместность

Исследование временных шаблонов активности покупателей

Применение - создание товарных запасов

Последовательность

Банковское дело

Выявление мошенничества с кредитными карточками

Выявление стереотипов поведения мошенников в результате анализа исторических данных

Классификация

Сегментация клиентов

Выявление ориентированности различных групп клиентов на различные виды услуг

Кластеризация

Телекоммуникации

Анализ записей о подробных характеристиках вызовов

Выявление стереотипов пользования услугами и разработка привлекательных наборов цен и услуг

Кластеризация

Выявление лояльности клиентов

Описание характеристик клиентов, склонных к неоднократному пользованию услугами компании

Классификация

Страхование

Выявление мошенничества

Выявление стереотипов поведения мошенников

Классификация

Анализ риска

Пересмотр политики предоставления скидок в результате анализа факторов, связанных с оплаченными заявлениями

Классификация

4.3.4.3. Классы систем ИАД

1. Предметно-ориентированные аналитические системы

Основой таких систем является заложенная в них модель предметной области. Одним из наиболее типичных классов этих систем являются системы анализа финансовых рынков, построенные на основе методов технического анализа. Он представляет собой совокупность нескольких десятков методов прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля, основанных на различных эмпирических моделях динамики рынка. Эти методы могут использовать математический аппарат различной степени сложности:

  1. Вычитание трендового значения.

  2. Использование статистических показателей.

  3. Спектральный анализ.

  4. Фрактальная математика.

Такие системы следует определить как специализированные ИС. Как следствие, им свойственны следующие достоинства:

  1. Требование статистической значимости удовлетворяется по определению, т.к. вся теория "зашита" в используемых алгоритмах.

  2. Требование интерпретируемости удовлетворяется по той же причине. Ориентация на терминологию предметной области присутствует.

  3. Как правило, имеют интерфейсы для загрузки финансовых данных.

Основной недостаток – также следствие специализации – неприменимость в условиях других моделей рынков (например, модель современного российского рынка существенно отличается от западной).

Стоимость предметно-ориентированных аналитических систем, как правило, 300-2000 долл. Примеры: MetaStock (компания Equis International), SuperCharts (Omega Research), Candlestick Forecaster (IPTC), Wall Street Money (Market Arts).

2. Статистические пакеты

Основой является использование корреляционного, регрессионного, факторного анализа и других математических методов.

Основной недостаток:

Высокие требования к специальной подготовленности пользователя. Для использования статистических процедур нужно обладать статистическими знаниями. Для автоматизации многократных операций нужно программировать на внутреннем языке.

Достаточно дороги – 1000 – 15000 долл.

Примеры: SAS (компания SAS Institute), SPSS (SPSS), STATGRAPHICS (Manugistics), STATISTICA, STADIA и другие.

3. Нейронные сети

Это большой класс систем, тем или иным способом (как правило, чисто программным) моделирующих нейронную сеть. Подход эффективен в задачах распознавания образов, однако он почти не применим к большинству финансовых и экономических задач, в особенности, в условиях экономической нестабильности.

Основные недостатки нейросетевой парадигмы:

  1. Необходимость обучающей выборки большого объема.

  2. Неинтерпретируемость накапливаемых знаний.

Практика применения нейросетей для анализа рынков показала, кроме того, следующий недостаток. Адекватные модели, показывающие удовлетворительный результат на обучающей выборке, получаются только при высокой сложности сети (т.е. большом количестве нейронов и связей между ними). В случаях, когда сложность сети перестает соответствовать объему обучающей выборки, обучение, как правило, неэффективно. В результате наблюдается явление «переобучения». Прогностические способности такой сети минимальны.

Примеры: BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500–8000.

4. Системы рассуждений на основе аналогичных случаев (case based reasoning – CBR, memory based reasoning, метод "ближайшего соседа" – nearest neighbour).

Принцип действия: Эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным.

Показывают очень хорошие результаты в самых разнообразных задачах.

Основные недостатки:

  1. Вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт.

  2. Произвол, допускаемый при выборе меры "близости". От этой меры зависит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза.

Примеры: KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).

Стоимость – порядка 10 тыс. долл.

5. Деревья решений

Данный метод пригоден только для решения задач классификации, и поэтому весьма ограниченно применяется в области финансов и бизнеса, где чаще встречаются задачи численного прогноза. В результате применения этого метода к обучающей выборке создается иерархическая структура классифицирующих правил типа "ЕСЛИ... ТО...", имеющая вид бинарного дерева.

Основное достоинство – наглядность представления правил.

Основной недостаток. Чем больше "кустистость" дерева, тем меньше обучающих примеров попадает в каждый частный случай ("лист"). При этом перестает соблюдаться требование статистической обоснованности. Реализуемый в деревьях решений метод последовательного перебора не дает возможности выбрать наиболее вероятное решение. Выбор фактически первого попавшегося решения особенно опасен при высокой "кустистости". Как показывает практика, в большинстве систем, использующих деревья решений, эти проблемы не находят удовлетворительного решения. Тем не менее довольно много систем используют этот метод.

Примеры: С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США).

Стоимость – порядка 10 тыс. долл.

6. Генетические алгоритмы

Генетические алгоритмы представляют собой программно реализованную бионику. Их основные этапы: формирование популяции правил в виде аналогичных структур, естественный отбор (сокращение наименее эффективных особей), генерация новых правил путем скрещивания в соответствии с законами генетики. Этапы повторяются циклически.

Недостатки генетических алгоритмов:

  1. Постановка задачи в их терминах не дает возможности проанализировать статистическую значимость получаемого решения.

  2. Критерий "естественного" отбора является эвристическим, корректно и эффективно сформулировать его способен только специалист. При наличии нескольких экспертов возможны различные формулировки критерия.

  3. Сложность обработки локальных экстремумов, в ряде случаев непредсказуемость.

Пример: система GeneHunter фирмы Ward Systems Group. Стоимость – около 600 долл.

7. Эволюционное программирование

Самая молодая и наиболее перспективная ветвь data mining, реализованная, в частности, в системе PolyAnalyst. Суть метода в том, что гипотезы о виде зависимости целевой переменной от других переменных формулируются системой в виде программ на некотором внутреннем языке программирования. Процесс построения этих программ строится как эволюция в мире программ (сходство с генетическими алгоритмами). Когда система находит программу, достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных таким образом дочерних программ те, которые повышают точность. Специальный транслирующий модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.), делая их легкодоступными.

Стоимость – до 5000 долл.

8. Нелинейные регрессионные методы

Поиск зависимости целевых переменных от остальных ведется в форме функций какого-то определенного вида. Например, в одном из алгоритмов этого типа – методе группового учета атрибутов (МГУА) зависимость ищут в форме полиномов. По всей видимости, этот метод дает более статистически значимые результаты, чем нейронные сети. Полученная формула зависимости в принципе поддается анализу и интерпретации (хотя на практике все же бывает слишком сложна для этого).

Пример: линейка продуктов NeuroShell компании Ward Systems Group, стоимость – от 500 до 900 долл., с настройками на предметные области – от 1500 долл. до 3500 долл.

9. Алгоритмы ограниченного перебора

Были предложены в середине 60-х годов М.М. Бонгардом для поиска логических закономерностей в данных. Продемонстрировали свою эффективность при решении множества задач из самых различных областей.

Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = a; X < a; X > a; a < X < b и др., где X — какой либо параметр, “a” и “b” — константы. Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр.

Пример: WizWhy (Абрахам Мейдан, WizSoft). Стоимость – 4000 долл.

Высокая популярность WizWhy – иллюстрация к общим подходам анализа данных в экономических системах. Там, где применение сложных математических формализмов не дает результата, эффективным оказывается переборный поиск комбинаций из 3 – 6 простых событий.

10. Системы визуализации многомерных данных

Графическое отображение данных поддерживается большинством средств ИАД. Однако существуют системы, специализирующиеся только на визуализации.

В подобных системах основное внимание сконцентрировано на дружелюбности пользовательского интерфейса, позволяющего ассоциировать с анализируемыми показателями различные параметры диаграммы рассеивания объектов (цвет, форму, ориентацию относительно собственной оси, размеры и другие свойства графических элементов изображения). Кроме того, системы визуализации данных снабжены удобными средствами для масштабирования и вращения изображений.

Стоимость – до нескольких сотен долларов.

Пример: DataMiner 3D (Dimension5).

4.3.4.4. Проектирование систем ИАД

Системы ИАД проектируются, как правило, на базе существующих ХД. Либо вновь проектируемая система может быть ориентирована на ИАД. В обоих случаях необходимо учитывать:

  1. Большой объем хранимых данных.

  2. Большой объем обрабатываемых данных.

  3. Продолжительные алгоритмы обработки.

Большая продолжительность обработки данных объясняется:

  1. Их большими объемами.

  2. Низкой скоростью и переборных, и математических алгоритмов.

  3. Как правило, необходимостью применения комплекса разнородных алгоритмов для ИАД.

Применение разнородных алгоритмов для ИАД является стандартной практикой, т.к. априорно указать наиболее эффективный алгоритм весьма сложно. Для этого требуются и серьезное знание теории ИАД, и большая практика разработки систем ИАД, и очень глубокое знание предметной области.

Исходя из этих соображений, система ИАД должна соответствовать следующим требованиям:

  1. Параллельная обработка. Позволяет эффективно анализировать многомерные данные, разбивать запросы (и низкой и высокой размерности). Выполнение результативного запроса при однопроцессорной обработке способно занять дни и недели.

  2. Организация хранилищ данных на устойчивых, высокопроизводительных и высокоемких носителях (например, дисковых RAID-массивах).

  3. Связь хранилищ данных с серверами, обрабатывающими запросы, по высокоскоростной шине (например, Gigabit Ethernet).

  4. Распределение обработки и размещения данных (использование трехзвенных архитектур, витрин данных, тематическое распределение данных между группами пользователей и т.д.)

Основной аргумент в оправдание всех финансовых затрат – ряд прецедентов, иллюстрирующих высокую экономическую эффективность (вплоть до 1000%) удачных проектов по ИАД.

Принять верное решение по структуре распределения данных без ошибочных итераций практически невозможно. Обязательно нужно рассчитывать на то, что на начальной стадии реализации проекта возможен ряд структурных реорганизаций. Используемость различных данных неравнозначна. Аналитики склоняются к корректности использования при оценивании используемости данных правила Парето (правила 20/80): большинство пользователей в 80% случаев обращаются к 20% данных. Необходимо выделить наиболее часто используемые данные и сделать их наиболее доступными. Как правило, это означает структурное выделение хранилища часто используемых данных: организация отдельного сервера либо организация витрин данных.

Разработчик структуры информационного фонда ИС должен иметь полное представление о потребностях пользователей. Однако пользователи в большинстве случаев не способны сформулировать это представление. В процессе ввода системы в эксплуатацию потребности пользователей меняются. Это также способствует итеративности синтеза структуры информационного фонда ИС.

При этом необходимо учитывать не только качественные изменения состава потребностей пользователей, но и их количественный рост. В первый же год эксплуатации системы объемы обрабатываемых данных могут вырасти в 2-3 раза.

При оценке объемов обрабатываемых данных необходимо также учитывать степень их дублирования и возможную долю ошибочных данных.

Проектирование системы ИАД производится, как правило, силами службы ИТ заказчика с привлечением консультанта. Возлагать всю реализацию проекта на стороннего подрядчика нецелесообразно, т.к. служба ИТ будет нести ответственность за результат и обслуживать спроектированную ИС. Проектирование полностью своими силами также нецелесообразно, т.к. сотрудники службы ИТ, как правило, не имеют необходимого опыта.

В обязанности службы ИТ входит исследование предметной области, моделирование данных, подготовка структурных решений. Привлекаемый консультант должен обладать достаточным опытом для совместной со службой ИТ разработки пилотного проекта. Приемлемой считают ситуацию, когда пилотный проект по масштабам приблизительно в 10 раз меньше желаемого. При тестировании и апробации пилотного проекта вносятся коррективы в первоначальный проект

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]