Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
бд / Лекция 12 - OLTP, OLAP.docx
Скачиваний:
81
Добавлен:
14.05.2015
Размер:
1.03 Mб
Скачать

Хранилища данных

Рис. Архитектура системы поддержки принятия решений

Хранилище данных — разновидность систем хранения, ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивость и хронологию данных, а также высокую скорость выполнения аналитических запросов.

Важнейшим элементом ХД является семантический слой — механизм, позволяющий аналитику оперировать данными посредством бизнес-терминов предметной области. Семантический слой дает пользователю возможность сосредоточиться на анализе и не задумываться о механизмах получения данных.

Отличия от обычных БД:

  1. цели использования. Например, регистрация продаж и выписка соответствующих документов — задача уровня OLTP-систем, использующих обычные реляционные СУБД. Анализ динамики продаж и спроса за несколько лет, позволяющий выработать стратегию развития фирмы и спланировать работу с поставщиками и клиентами, удобнее всего выполнять при поддержке ХД.

  2. динамика изменения данных. Базы данных в OLTP-системах характеризуются очень высокой динамикой изменения записей из-за повседневной работы большого числа пользователей (откуда, кстати, велика вероятность появления противоречий, ошибок, нарушения целостности данных и т.д.). Что касается ХД, то данные из него не удаляются, а пополнение происходит в соответствии с определенным регламентом (раз в час, день, неделю, в определенное время).

К хранилищам данных предъявляют следующие требования (тест FASMI - Fast Analysis of Shared Multidimensional Information):

  • Fast (Быстрый) - анализ должен производиться одинаково быстро по всем аспектам информации. Приемлемое время отклика - 5 с или менее.

  • Analysis (Анализ) - должна быть возможность осуществлять основные типы числового и статистического анализа.

  • Shared (Разделяемой) - множество пользователей должно иметь доступ к данным, при этом необходимо контролировать доступ к конфиденциальной информации.

  • Multidimensional (Многомерной) – показатели должны вычисляться для произвольного набора классификационных признаков.

  • Information (Информации) - приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения.

Для построения и работы ХД, как правило, используется не одно приложение, а система, в которую входит несколько программных продуктов. Одни из них представляют собой собственно систему хранения данных, другие — средства их просмотра, извлечения, загрузки и т.д.

Рис. Концептуальная схема ХД

Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.

Категории данных в хд

Все данные в ХД делятся на три категории:

  1. детальные данные - данные, переносимые непосредственно из OLTP-подсистем. Соответствуют элементарным событиям, фиксируемым в OLTP-системах. Подразделяются на:

  • измерения - наборы данных, необходимые для описания событий (товар, продавец, покупатель, магазин, … );

  • факты - данные, отражающие сущность события (количество проданного товара, сумма продаж, …);

  • агрегированные (обобщенные) данные - данные, получаемые на основании детальных путем суммирования по определенным измерениям;

  • метаданные - данные о данных, содержащихся в ХД. Могут описывать:

    • объекты предметной области, информация о которых содержится в ХД;

    • категории пользователей, использующих данные в ХД;

    • места и способы хранения данных;

    • действия, выполняемые над данными;

    • время выполнения различных действий над данными;

    • причины выполнения различных действий над данными.