Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Архитектурно-Строительный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

9306

.pdf

Скачиваний:

Добавлен:

25.11.2023

Размер:

2.5 Mб

Скачать

☆

<<< < Предыдущая 12 / 162 3 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

интеллектуального анализа Data mining (DM), который получил обобщенное название – Business intelligence (BI).

Крупнейшие поставщики предоставляют всевозможные решения для реализации аналитических систем, такие как SAP Business Objects (разработчик

– компания SAP AG), Oracle OLAP (разработчик – Oracle Corporation), ПРОГНОЗ (разработчик – компания «Прогноз»), Deductor (разработчик – компания BaseGroup Labs) и др.

Многие инструментальные средства, предназначенные для автоматизации аналитических работ, приспособлены для обработки многомерных массивов информации, имеют возможность импорта/экспорта данных в другие операционные среды, развитые средства визуального двумерного (2D) и трехмерного (3D) представления информации.

Модули, предназначенные для выполнения функций OLAP–анализа, входят также и в состав интегрированных информационных систем (системы, выполняющие весь комплекс автоматизации работ в информационном пространстве экономического или какого-либо другого объекта). Наиболее развитые интегрированные информационные системы выполняют функции и оперативного, и интеллектуального анализа.

Как свидетельствует мировая практика, такая многофункциональность интегрированных информационных систем может быть достигнута в рамках технологий Business Intelligence (BI), обеспечивающих сбор и консолидацию информации в единой базе данных с возможностью ее последующего бизнесанализа. В настоящее время термин Business Intelligence трактуется как информационные технологии сбора данных, их консолидации и превращения в новые знания для поддержки принятия неформальных управленческих решений. Базой BI-систем являются хранилище данных (Data Warehouse), средства интеллектуального анализа данных и текстов (Data Mining, Text Mining) и средства оперативного анализа данных (OLAP).

1.2. Аналитическая платформа Deductor

Deductor – это аналитическая платформа, предназначенная для создания логично завершенных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от консолидации данных к построению моделей и визуализации полученных результатов.

Deductor предоставляет аналитикам инструментальные средства, необходимые для решения самых разнообразных аналитических задач: корпоративная отчетность, прогнозирование, сегментация, поиск закономерностей – эти и другие задачи, где применяются такие методики анализа, как OLAP, Knowledge Discovery in Databases и Data Mining. Deductor является идеальной платформой для создания систем поддержки принятия решений. Реализованные механизмы обеспечивают тиражирование знаний, когда результаты, полученные аналитиками, используются всеми сотрудниками организации без необходимости понимания способов и методов обработки.

Аналитическая платформа Deductor состоит из 5 частей:

1.Deductor Warehouse – многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически обеспечивает всю необходимую поддержку процесса анализа данных.

2.Deductor Studio – программа, реализующая функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их

совместное использование. В Deductor Studio включен полный набор механизмов, позволяющий получить информацию из произвольного источника данных, провести весь цикл обработки (очистку,

трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, диаграммы, деревья…) и экспортировать результаты.

Deductor Studio имеет встроенные механизмы работы со множеством источников и приемников данных, поддерживает практически все популярные форматы:

-TXT, CSV, XML, HTML;

-офисные приложения;

-драйвера прямого доступа ко множеству СУБД;

-поддержка ODBC и ADO;

-1C:Предприятие.

Deductor Studio интегрируется в любое программное окружение, позволяет извлечь из накопленных в компании данных интересную и практически полезную информацию.

3.Deductor Viewer – рабочее место конечного пользователя. Позволяет отделить процесс построения моделей от использования уже готовых моделей. Все сложные операции по подготовке моделей выполняются аналитиками-экспертами при помощи Deductor Studio, а Deductor Viewer обеспечивает пользователям простой способ работы с готовыми результатами. Это одно из средств тиражирования, когда построенные аналитиком модели используют пользователи, не владеющие технологиями анализа данных.

4.Deductor Server – служба, обеспечивающая удаленную аналитическую обработку данных;

5.Deductor Client – клиент доступа к Deductor Server. Обеспечивает доступ к серверу из сторонних приложений и управление его работой.

Существует три типа варианта поставки платформы Deductor: Enterprise; Professional; Academic. Набор доступных компонентов может различаться в зависимости от типа поставки.

Версия Deductor Academic выпущена компанией-разработчиком BaseGroup Labs специально для образовательных целей (академическую версию программы можно загрузить с сайта www.basegroup.ru). В ней разрешен импорт данных только из собственного хранилища и текстовых файлов, но данная программа обладает полноценными возможностями обработки и визуализации данных, кластеризации, прогнозирования и многих других технологий интеллектуального анализа.

Архитектура системы построена таким образом, что вся работа по анализу данных в Deductor Studio базируется на выполнении следующих действий:

−импорт данных;

−обработка данных;

−визуализация;

−экспорт данных.

Рис. 1.1. Архитектура АП Deductor

Процесс построения моделей в Deductor основывается на следующих трех принципах:

−использование обработчиков;

−использование визуализаторов;

−создание сценариев.

Обработка и визуализация – две атомарные операции с данными в Deductor.

Под обработкой понимаются любые манипуляции над набором данных: от самых простых (например, сортировка) до сложных (построение нейронной сети). Обработчик можно представить в виде «черного ящика», на вход которого подается набор данных, а на выходе формируется преобразованный набор данных (рис. 1.2).

Рис. 1.2. Обработка и визуализация

Реализованные в Deductor обработчики покрывают основную потребность в анализе данных и создания законченных аналитических решений на базе Data Mining. Их классификация и описание приведены на рис. 1.3 и в табл. 1.

Алгоритмы в Deductor


Очистка данных	Трансформация данных	Data Mining
		(Добыча данных)
• Редактирование	• Замена пустых значений	•	Нейронные сети
аномалий

• Заполнение	• Квантование значений	•	Линейная регрессия
пропусков

• Сглаживание	• Табличная замена	•	Автокорреляция
	значений

• Очистка от шумов	• Скользящее окно	•	Прогнозирование
• Обнаружение	• Преобразование даты	•	Деревья решений

дубликатов и

противоречий

• Группировка

• Самоорганизующиеся

карты

• Разгруппировка

• Ассоциативные

правила

• Понижение размерности

• Пользовательская

модель

• Устранение незначащих

• Скрипты

факторов

Рис. 1.3. Классификация алгоритмов (обработчиков) в Deductor

Таблица 1

Описание обработчиков в Deductor

Пиктограмма

Наименование

Описание

Очистка данных

Парциальная обработка

Восстановление,

сглаживание

редактирование

аномальных

дан-

ных

Факторный анализ

Понижение

размерности

входных

факторов

Корреляционный анализ

Устранение незначащих факторов

Дубликаты

и противо-

Выявление дубликатов и противо-

речия

речивых записей в исходном наборе

данных

Фильтрация

записей

выборки

по

заданным условиям

Трансформация данных

Настройка

набора дан-

Настройки параметров полей

ных

Скользящее окно

Преобразование

данных

методом

скользящего окна

Дата и время

Обработка данных в формате «дата»

и «время»

Квантование

Квантование значений выборки

Сортировка

записей

исходной

выборке

Слияние

Объединение данных

из

двух

таблиц

Продолжение табл. 1

Пиктограмма	Наименование	Описание
Трансформация данных

	Замена	Замена	значений			по	таблице
		подстановки
		подстановки
	Группировка	Группировка данных

	Разгруппировка	Восстановление выборки, к которой
		была применена операция группи-
		была применена операция группи-
		ровки
Data Mining (Добыча данных)

	Прогнозирование	Прогнозирование				динамического
		ряда
		ряда
	Автокорреляция	Выполняет			автокорреляционный
		анализ данных
		анализ данных
	Линейная регрессия	Построение модели данных в виде
		набора	коэффициентов				линейного
		набора	коэффициентов				линейного
		преобразования
	Логистическая	Построение		бинарной логистичес-
	регрессия	кой регрессионной модели

	Нейросеть	Обработка		данных		с	помощью
		многослойной нейронной сети
	Дерево решений	Обработка		данных		с	помощью
		деревьев решений
		деревьев решений
	Самоорганизующаяся	Кластеризация данных
	карта
	карта
	Ассоциативные правила	Обнаружение			зависимостей			между
		связанными событиями
		связанными событиями
	Пользовательская	Задание	модели			вручную			по
	модель	формулам
	модель	формулам
	Кластеризация	Кластеризация			алгоритмом			k	-
		means и g - means
		means и g - means
	Скрипт	Применение			модели		к	новым
		данным
		данным

Любой набор данных можно визуализировать каким-либо доступным

способом или несколькими способами, поскольку визуализация помогает

интерпретировать построенные модели.

ВDeductor предусмотрены следующие способы визуализации данных:

−OLAP – многомерное представление данных. Любые данные, используемые в программе, можно посмотреть в виде кросс-таблицы и кросс-диаграммы.

−Таблица – стандартное табличное представлении с возможностью фильтрации данных.

−Диаграмма – график изменения любого показателя.

−Гистограмма – график разброса показателей.

−Статистика – статистические показатели набора данных.

−Диаграмма рассеяния – график отклонения прогнозируемых при помощи модели значений от реальных. Может быть построена только для непрерывных величин и только после использования механизмов построения модели, например, нейросети или линейной регрессии. Используется для визуальной оценки качества построенной модели.

−Таблица сопряженности предназначена для оценки результатов классификации вне зависимости от используемой модели. Таблица сопряженности отображает результаты сравнения категориальных значений исходного выходного столбца и категориальных значений рассчитанного выходного столбца. Используется для оценки качества классификации.

−«Что-если» – таблица и диаграмма, которые позволяют «прогонять» через построенную модель любые интересующие пользователя данные и оценить влияние того или иного фактора на результат.

−Обучающая выборка – набор данных, используемый для построения модели.

−Диаграмма прогноза применяется после использования метода обработки – Прогнозирование. Прогнозные значения выделяются цветом.

−Граф нейросети – визуальное отображение обученной нейросети. Отображается структура нейронной сети и значения весов.

−Дерево решений – отображение дерева решений, полученного при помощи соответствующего алгоритма.

−Дерево правил – отображение в иерархическом виде (в виде дерева) ассоциативных правил.

−Правила – тип визуализации для отображения в текстовом виде правил, полученных при помощи алгоритма построения деревьев решений или поиска ассоциаций.

−Карта Кохонена – отображение карт, построенных при помощи соответствующего алгоритма.

−Описание – текстовое описание параметров импорта/обработки /экспорта в дереве сценариев обработки.

Сценарий представляет собой (дерево) – иерархическую последо-

вательность обработки и визуализации наборов данных (рис. 1.4). Сценарий всегда начинается с импорта набора данных. После импорта может следовать произвольное число обработчиков любой степени глубины и вложенности. В дереве каждая операция образует узел, заголовок которого содержит имя источника данных, наименование применяемого метода обработки, используемые при этом поля и т.д. Кроме этого, слева от наименования узла стоит значок, соответствующий типу операции.

Рис. 1.4. Пример сценария в Deductor

Проект программы – это файл с расширением *.ded, по структуре соответствующий стандартному xml-файлу. Он хранит в себе последовательности обработки данных (сценарии), настроенные визуализаторы, переменные проекта и служебную информацию.

1.3. Интерфейс Deductor Studio

Интерфейс Deductor Studio состоит из главного окна, внутри которого располагаются панели сценариев, отчетов, источников данных и результаты моделирования (таблицы, графики, кросс-диаграммы, правила и т.д.).

Главное	Панель	Панель	Область для
меню	Закладки управления	инструментов	визуализаторов

Рис. 1.5. Интерфейс Deductor Studio

Интерфейс состоит из следующих основных частей (рис. 1.5): меню; стандартная панель инструментов; панель закладок или же просто закладки; область сценария или управления; область визуализации данных.

Все операции (создание, открытие и сохранение) осуществляются стандартным способом через пункт меню «Файл».

<<< < Предыдущая 12 / 162 3 4 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.11.20232.49 Mб39301.pdf
#
25.11.20232.49 Mб09302.pdf
#
25.11.20232.49 Mб09303.pdf
#
25.11.20232.49 Mб09304.pdf
#
25.11.20232.49 Mб09305.pdf
#
25.11.20232.5 Mб09306.pdf
#
25.11.20232.5 Mб09307.pdf
#
25.11.20232.5 Mб09308.pdf
#
25.11.20232.51 Mб09309.pdf
#
21.11.2023163.39 Кб0931.pdf
#
25.11.20232.51 Mб09310.pdf