- •Понятие транзакции.
- •Технология оперативной обработки транзакций (oltp- технология).
- •Соответственно этим уровням выделяются следующие типы информационных систем:
- •Системы обработки данных - сод
- •Информационные системы - ис - управления - ису
- •Системы поддержки принятия решений - сппр
- •Характеристики ис - информационных систем - класса oltp
- •Предпосылки появления хд
- •Хранилища данных
- •Категории данных в хд
- •Детализированные и агрегированные данные
- •Метаданные
- •Способы использования хд
- •Обзор архитектур хд
- •Витрины данных
- •Понятие и модель данных olap Понятие olap
- •Структура olap-куба
- •Иерархия измерений olap-кубов
- •Операции, выполняемые над гиперкубом
- •Таблицы измерений
- •Слой извлечения, преобразования и загрузки данных
- •Слой хранения данных
- •Слой анализа данных
- •Клиентские olap-средства
- •Серверные olap-средства
- •Oracle Business Intellegence
- •Microsoft sql Server Analysis Services
- •Технические аспекты многомерного хранения данных
Хранилища данных
Рис. Архитектура системы поддержки принятия решений
Хранилище данных — разновидность систем хранения, ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивость и хронологию данных, а также высокую скорость выполнения аналитических запросов.
Важнейшим элементом ХД является семантический слой — механизм, позволяющий аналитику оперировать данными посредством бизнес-терминов предметной области. Семантический слой дает пользователю возможность сосредоточиться на анализе и не задумываться о механизмах получения данных.
Отличия от обычных БД:
цели использования. Например, регистрация продаж и выписка соответствующих документов — задача уровня OLTP-систем, использующих обычные реляционные СУБД. Анализ динамики продаж и спроса за несколько лет, позволяющий выработать стратегию развития фирмы и спланировать работу с поставщиками и клиентами, удобнее всего выполнять при поддержке ХД.
динамика изменения данных. Базы данных в OLTP-системах характеризуются очень высокой динамикой изменения записей из-за повседневной работы большого числа пользователей (откуда, кстати, велика вероятность появления противоречий, ошибок, нарушения целостности данных и т.д.). Что касается ХД, то данные из него не удаляются, а пополнение происходит в соответствии с определенным регламентом (раз в час, день, неделю, в определенное время).
К хранилищам данных предъявляют следующие требования (тест FASMI - Fast Analysis of Shared Multidimensional Information):
Fast (Быстрый) - анализ должен производиться одинаково быстро по всем аспектам информации. Приемлемое время отклика - 5 с или менее.
Analysis (Анализ) - должна быть возможность осуществлять основные типы числового и статистического анализа.
Shared (Разделяемой) - множество пользователей должно иметь доступ к данным, при этом необходимо контролировать доступ к конфиденциальной информации.
Multidimensional (Многомерной) – показатели должны вычисляться для произвольного набора классификационных признаков.
Information (Информации) - приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения.
Для построения и работы ХД, как правило, используется не одно приложение, а система, в которую входит несколько программных продуктов. Одни из них представляют собой собственно систему хранения данных, другие — средства их просмотра, извлечения, загрузки и т.д.
Рис. Концептуальная схема ХД
Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.
Категории данных в хд
Все данные в ХД делятся на три категории:
детальные данные - данные, переносимые непосредственно из OLTP-подсистем. Соответствуют элементарным событиям, фиксируемым в OLTP-системах. Подразделяются на:
измерения - наборы данных, необходимые для описания событий (товар, продавец, покупатель, магазин, … );
факты - данные, отражающие сущность события (количество проданного товара, сумма продаж, …);
агрегированные (обобщенные) данные - данные, получаемые на основании детальных путем суммирования по определенным измерениям;
метаданные - данные о данных, содержащихся в ХД. Могут описывать:
объекты предметной области, информация о которых содержится в ХД;
категории пользователей, использующих данные в ХД;
места и способы хранения данных;
действия, выполняемые над данными;
время выполнения различных действий над данными;
причины выполнения различных действий над данными.