Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9306

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.5 Mб
Скачать

10

интеллектуального анализа Data mining (DM), который получил обобщенное название – Business intelligence (BI).

Крупнейшие поставщики предоставляют всевозможные решения для реализации аналитических систем, такие как SAP Business Objects (разработчик

– компания SAP AG), Oracle OLAP (разработчик – Oracle Corporation), ПРОГНОЗ (разработчик – компания «Прогноз»), Deductor (разработчик – компания BaseGroup Labs) и др.

Многие инструментальные средства, предназначенные для автоматизации аналитических работ, приспособлены для обработки многомерных массивов информации, имеют возможность импорта/экспорта данных в другие операционные среды, развитые средства визуального двумерного (2D) и трехмерного (3D) представления информации.

Модули, предназначенные для выполнения функций OLAP–анализа, входят также и в состав интегрированных информационных систем (системы, выполняющие весь комплекс автоматизации работ в информационном пространстве экономического или какого-либо другого объекта). Наиболее развитые интегрированные информационные системы выполняют функции и оперативного, и интеллектуального анализа.

Как свидетельствует мировая практика, такая многофункциональность интегрированных информационных систем может быть достигнута в рамках технологий Business Intelligence (BI), обеспечивающих сбор и консолидацию информации в единой базе данных с возможностью ее последующего бизнесанализа. В настоящее время термин Business Intelligence трактуется как информационные технологии сбора данных, их консолидации и превращения в новые знания для поддержки принятия неформальных управленческих решений. Базой BI-систем являются хранилище данных (Data Warehouse), средства интеллектуального анализа данных и текстов (Data Mining, Text Mining) и средства оперативного анализа данных (OLAP).

11

1.2. Аналитическая платформа Deductor

Deductor – это аналитическая платформа, предназначенная для создания логично завершенных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от консолидации данных к построению моделей и визуализации полученных результатов.

Deductor предоставляет аналитикам инструментальные средства, необходимые для решения самых разнообразных аналитических задач: корпоративная отчетность, прогнозирование, сегментация, поиск закономерностей – эти и другие задачи, где применяются такие методики анализа, как OLAP, Knowledge Discovery in Databases и Data Mining. Deductor является идеальной платформой для создания систем поддержки принятия решений. Реализованные механизмы обеспечивают тиражирование знаний, когда результаты, полученные аналитиками, используются всеми сотрудниками организации без необходимости понимания способов и методов обработки.

Аналитическая платформа Deductor состоит из 5 частей:

1.Deductor Warehouse – многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически обеспечивает всю необходимую поддержку процесса анализа данных.

2.Deductor Studio – программа, реализующая функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их

совместное использование. В Deductor Studio включен полный набор механизмов, позволяющий получить информацию из произвольного источника данных, провести весь цикл обработки (очистку,

12

трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, диаграммы, деревья…) и экспортировать результаты.

Deductor Studio имеет встроенные механизмы работы со множеством источников и приемников данных, поддерживает практически все популярные форматы:

-TXT, CSV, XML, HTML;

-офисные приложения;

-драйвера прямого доступа ко множеству СУБД;

-поддержка ODBC и ADO;

-1C:Предприятие.

Deductor Studio интегрируется в любое программное окружение, позволяет извлечь из накопленных в компании данных интересную и практически полезную информацию.

3.Deductor Viewer – рабочее место конечного пользователя. Позволяет отделить процесс построения моделей от использования уже готовых моделей. Все сложные операции по подготовке моделей выполняются аналитиками-экспертами при помощи Deductor Studio, а Deductor Viewer обеспечивает пользователям простой способ работы с готовыми результатами. Это одно из средств тиражирования, когда построенные аналитиком модели используют пользователи, не владеющие технологиями анализа данных.

4.Deductor Server – служба, обеспечивающая удаленную аналитическую обработку данных;

5.Deductor Client – клиент доступа к Deductor Server. Обеспечивает доступ к серверу из сторонних приложений и управление его работой.

Существует три типа варианта поставки платформы Deductor: Enterprise; Professional; Academic. Набор доступных компонентов может различаться в зависимости от типа поставки.

13

Версия Deductor Academic выпущена компанией-разработчиком BaseGroup Labs специально для образовательных целей (академическую версию программы можно загрузить с сайта www.basegroup.ru). В ней разрешен импорт данных только из собственного хранилища и текстовых файлов, но данная программа обладает полноценными возможностями обработки и визуализации данных, кластеризации, прогнозирования и многих других технологий интеллектуального анализа.

Архитектура системы построена таким образом, что вся работа по анализу данных в Deductor Studio базируется на выполнении следующих действий:

импорт данных;

обработка данных;

визуализация;

экспорт данных.

Рис. 1.1. Архитектура АП Deductor

14

Процесс построения моделей в Deductor основывается на следующих трех принципах:

использование обработчиков;

использование визуализаторов;

создание сценариев.

Обработка и визуализация – две атомарные операции с данными в Deductor.

Под обработкой понимаются любые манипуляции над набором данных: от самых простых (например, сортировка) до сложных (построение нейронной сети). Обработчик можно представить в виде «черного ящика», на вход которого подается набор данных, а на выходе формируется преобразованный набор данных (рис. 1.2).

Рис. 1.2. Обработка и визуализация

Реализованные в Deductor обработчики покрывают основную потребность в анализе данных и создания законченных аналитических решений на базе Data Mining. Их классификация и описание приведены на рис. 1.3 и в табл. 1.

Алгоритмы в Deductor

 

 

 

 

 

 

 

Очистка данных

Трансформация данных

Data Mining

(Добыча данных)

Редактирование

Замена пустых значений

Нейронные сети

аномалий

 

 

 

 

 

Заполнение

Квантование значений

Линейная регрессия

пропусков

 

 

 

 

 

Сглаживание

Табличная замена

Автокорреляция

значений

 

 

 

 

 

Очистка от шумов

Скользящее окно

Прогнозирование

Обнаружение

Преобразование даты

Деревья решений

15

 

дубликатов и

 

 

 

 

 

 

 

 

 

 

 

 

противоречий

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

• Группировка

 

 

• Самоорганизующиеся

 

 

 

 

 

 

 

 

карты

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

• Разгруппировка

 

• Ассоциативные

 

 

 

 

 

 

 

 

 

 

правила

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

• Понижение размерности

 

• Пользовательская

 

 

 

 

 

 

 

 

 

 

 

 

модель

 

 

 

 

 

 

 

 

 

 

 

• Устранение незначащих

 

• Скрипты

 

 

 

 

 

 

 

 

 

 

факторов

 

 

 

 

 

 

 

 

 

 

Рис. 1.3. Классификация алгоритмов (обработчиков) в Deductor

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1

 

 

 

 

 

 

 

 

Описание обработчиков в Deductor

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пиктограмма

Наименование

Описание

 

 

 

 

 

 

 

 

 

Очистка данных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Парциальная обработка

Восстановление,

сглаживание

и

 

 

 

 

 

 

 

 

 

редактирование

аномальных

дан-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ных

 

 

 

 

 

 

 

 

 

 

 

 

Факторный анализ

Понижение

размерности

входных

 

 

 

 

 

 

 

 

 

факторов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Корреляционный анализ

Устранение незначащих факторов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дубликаты

и противо-

Выявление дубликатов и противо-

 

 

 

 

 

 

речия

 

речивых записей в исходном наборе

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

данных

 

 

 

 

 

 

 

 

 

 

 

 

Фильтрация

 

Фильтрация

записей

выборки

по

 

 

 

 

 

 

 

 

 

заданным условиям

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Трансформация данных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Настройка

набора дан-

Настройки параметров полей

 

 

 

 

 

 

 

 

ных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Скользящее окно

Преобразование

данных

методом

 

 

 

 

 

 

 

 

 

скользящего окна

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дата и время

Обработка данных в формате «дата»

 

 

 

 

 

 

 

 

 

и «время»

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Квантование

Квантование значений выборки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сортировка

 

Сортировка

записей

в

исходной

 

 

 

 

 

 

 

 

 

выборке

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Слияние

 

Объединение данных

из

двух

 

 

 

 

 

 

 

 

 

таблиц

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

16

Продолжение табл. 1

 

Пиктограмма

Наименование

Описание

 

 

 

 

 

 

 

Трансформация данных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Замена

Замена

значений

по

таблице

 

 

 

 

подстановки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Группировка

Группировка данных

 

 

 

 

 

 

 

 

 

 

 

 

Разгруппировка

Восстановление выборки, к которой

 

 

 

 

была применена операция группи-

 

 

 

 

 

 

 

 

ровки

 

 

 

 

 

 

 

 

Data Mining (Добыча данных)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Прогнозирование

Прогнозирование

динамического

 

 

 

 

ряда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Автокорреляция

Выполняет

 

автокорреляционный

 

 

 

 

анализ данных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Линейная регрессия

Построение модели данных в виде

 

 

 

 

набора

коэффициентов

линейного

 

 

 

 

 

 

 

 

преобразования

 

 

 

 

 

 

 

Логистическая

Построение

бинарной логистичес-

 

 

 

регрессия

кой регрессионной модели

 

 

 

 

 

 

 

 

 

 

 

 

 

Нейросеть

Обработка

данных

с

помощью

 

 

 

 

многослойной нейронной сети

 

 

 

 

Дерево решений

Обработка

данных

с

помощью

 

 

 

 

деревьев решений

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Самоорганизующаяся

Кластеризация данных

 

 

 

 

 

 

карта

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ассоциативные правила

Обнаружение

зависимостей

между

 

 

 

 

связанными событиями

 

 

 

 

 

 

 

 

 

 

 

 

 

Пользовательская

Задание

модели

вручную

по

 

 

 

модель

формулам

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Кластеризация

Кластеризация

алгоритмом

k

-

 

 

 

 

means и g - means

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Скрипт

Применение

 

модели

к

новым

 

 

 

 

данным

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Любой набор данных можно визуализировать каким-либо доступным

способом или несколькими способами, поскольку визуализация помогает

интерпретировать построенные модели.

17

ВDeductor предусмотрены следующие способы визуализации данных:

OLAP – многомерное представление данных. Любые данные, используемые в программе, можно посмотреть в виде кросс-таблицы и кросс-диаграммы.

Таблица – стандартное табличное представлении с возможностью фильтрации данных.

Диаграмма – график изменения любого показателя.

Гистограмма – график разброса показателей.

Статистика – статистические показатели набора данных.

Диаграмма рассеяния – график отклонения прогнозируемых при помощи модели значений от реальных. Может быть построена только для непрерывных величин и только после использования механизмов построения модели, например, нейросети или линейной регрессии. Используется для визуальной оценки качества построенной модели.

Таблица сопряженности предназначена для оценки результатов классификации вне зависимости от используемой модели. Таблица сопряженности отображает результаты сравнения категориальных значений исходного выходного столбца и категориальных значений рассчитанного выходного столбца. Используется для оценки качества классификации.

«Что-если» – таблица и диаграмма, которые позволяют «прогонять» через построенную модель любые интересующие пользователя данные и оценить влияние того или иного фактора на результат.

Обучающая выборка – набор данных, используемый для построения модели.

Диаграмма прогноза применяется после использования метода обработки – Прогнозирование. Прогнозные значения выделяются цветом.

Граф нейросети – визуальное отображение обученной нейросети. Отображается структура нейронной сети и значения весов.

18

Дерево решений – отображение дерева решений, полученного при помощи соответствующего алгоритма.

Дерево правил – отображение в иерархическом виде (в виде дерева) ассоциативных правил.

Правила – тип визуализации для отображения в текстовом виде правил, полученных при помощи алгоритма построения деревьев решений или поиска ассоциаций.

Карта Кохонена – отображение карт, построенных при помощи соответствующего алгоритма.

Описание – текстовое описание параметров импорта/обработки /экспорта в дереве сценариев обработки.

Сценарий представляет собой (дерево) – иерархическую последо-

вательность обработки и визуализации наборов данных (рис. 1.4). Сценарий всегда начинается с импорта набора данных. После импорта может следовать произвольное число обработчиков любой степени глубины и вложенности. В дереве каждая операция образует узел, заголовок которого содержит имя источника данных, наименование применяемого метода обработки, используемые при этом поля и т.д. Кроме этого, слева от наименования узла стоит значок, соответствующий типу операции.

Рис. 1.4. Пример сценария в Deductor

19

Проект программы – это файл с расширением *.ded, по структуре соответствующий стандартному xml-файлу. Он хранит в себе последовательности обработки данных (сценарии), настроенные визуализаторы, переменные проекта и служебную информацию.

1.3. Интерфейс Deductor Studio

Интерфейс Deductor Studio состоит из главного окна, внутри которого располагаются панели сценариев, отчетов, источников данных и результаты моделирования (таблицы, графики, кросс-диаграммы, правила и т.д.).

Главное

Панель

Панель

Область для

меню

Закладки управления

инструментов

визуализаторов

Рис. 1.5. Интерфейс Deductor Studio

Интерфейс состоит из следующих основных частей (рис. 1.5): меню; стандартная панель инструментов; панель закладок или же просто закладки; область сценария или управления; область визуализации данных.

Все операции (создание, открытие и сохранение) осуществляются стандартным способом через пункт меню «Файл».

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]