Презентация ИС 2013_1
.pdfИнформационный анализ данных
Для анализа можно использовать работу с двумя базами, для работы с которыми используется одна СУБД. Работа с базами выполняется следующим образом:
ввод данных происходит в первую (основную) базу данных;
прошедшие все необходимые виды контроля данные переносятся во вторую базу данных со структурой, являющейся оптимальной для аналитической обработки;
для работы со второй базой используются специализированные технологии.
Наибольшее признание получила OLAP-технология.
81
Системы OLAP
OLAP (On-Line Analytical Processing) - оперативная аналитическая обработка.
OLAP – это совокупность концепций и принципов, лежащих в основе программных продуктов, облегчающих аналитикам доступ к данным.
Задача аналитика - находить закономерности в больших массивах данных, поэтому аналитик не будет обращать внимания на отдельно взятый факт - ему нужна информация о сотнях и тысячах подобных событиях.
82
В основе OLAP лежит идея многомерной модели данных
Первичные (“сырые”) данные из БД:
1)очищаются;
2)агрегируются (обрабатываются с помощью агрегатных функций – вычисление сумм, средних значений, числа записей, максимальных и минимальных значений);
3)помещаются в специальное хранилище данных, которое в дальнейшем используется аналитиками.
Хранилище данных проектируется в виде
многомерного куба (гиперкуба).
OLAP-приложения оперируют большими массивами данных, уже накопленными в OLTP–приложениях или системах СОД.
83
Принципы организации гиперкуба
По осям куба откладываются признаки анализа, их называют измерениями куба.
Измерениями куба являются факторы, влияющие на деятельность предприятия (например: время,
продукты, отделения компании, географические регионы и т.п.).
Измерения гиперкуба могут носить сложный характер, быть иерархическими, между ними могут быть установлены отношения.
Например, измерение, представляющее территориальные объекты (области, районы,
города и другие населенные пункты).
84
Принципы организации гиперкуба
банк
услуга
тариф
время
Принципы организации гиперкуба
Вячейках куба размещаются агрегированные данные
–это могут быть различные экономические показатели деятельности предприятия, например:
суммы продаж, цены, плановые показатели, прибыль, убытки и т. д.
Наполнение куба ведется как реальными данными, так и прогнозируемыми на основе исторических данных.
При хранении признаки анализа (измерения)
отделяются от фактических данных.
Признаки анализа образуют структуру типа “звезда”.
86
Признаки анализа – измерения гиперкуба
время
поставщик |
|
регион |
|
|
|
клиент |
|
продукт |
|
|
|
Количество измерений, как правило, колеблется от 6
(простые OLAP приложения) до 20 (серьезные OLAP
продукты).
87
Работа с гиперкубом
Это процедура “разрезания” куба, в результате - пользователь получает двумерный срез (таблицу).
Многомерные данные можно просматривать в различных разрезах.
Работа с кубами позволяет выполнять такие операции как:
прогнозирование;
условное планирование (анализ типа “что, если”).
Операции могут выполняться над несколькими кубами как едиными целыми, т. е., например, произведение кубов даст в результате гиперкуб, каждая ячейка которого является произведением ячеек соответствующих гиперкубов-множителей.
88
Операция разрезания гиперкуба
89
Характеристики OLAP-системы
1.Добавление в систему новых данных происходит относительно редко крупными блоками (например, раз в квартал загружаются данные по итогам квартальных продаж из OLTP-приложений или СОД).
2.Перед загрузкой данные проходят различные процедуры “очистки”, т. к. в одну систему могут поступать данные из многих источников, имеющих различные форматы представления (данные могут быть некорректны или ошибочны).
3.Запросы к системе бывают, как правило, достаточно сложными. Часто новый запрос создается для уточнения результата, полученного в результате предыдущего запроса.
90