Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
шпоры по иис.doc
Скачиваний:
21
Добавлен:
25.09.2019
Размер:
345.6 Кб
Скачать

23. Программное обеспечение реализации иад.

24. Понятие и концепция хранилища данных.

Для реализации интеллектуального анализа данных возникла необходимость собрать данные из различных источников в одном месте привести к единому формату, которых позволяет эффективно применять методы дата майнинг. Это привело к созданию концепции данных.

Хранилища данных- это разновидность хранения данных ориентированная на поддержку процесса анализа данных обеспечивающая целостность не противоречивость, хронологию и быстроту анализа данных.

Хранилище данных в разрезе решения бизнес задач – это специальным образом консоледированная информация из разных источников необходимая для обработки с целью принятия стратегических управленческих решений.

Отличительные особенности хранилища данных от базы данных:

  1. Разные цели создания. База данных используется для оперативно анализа и управления. Хранилище данных – для решения задач стратегического управления, на долгосрочный период.

  2. Динамика изменения данных. В базе данных высокая динамичность изменения при этом данные устаревшие могут удалятся, заменятся новыми, не всегда соблюдается хронологичность. В хранилище данных наоборот, данные не удаляются а только накапливаются. Причем в строгой хранологичности.

Основные положения хранилища данных.

У истоков концепции стоял Бил Инмон, который в начале 90-х годов опубликовал ряд основополагающих работ в данной области. Где отразил следующие основные принципы:

  1. Предметная ориентированность. Учет специфики конкретной предметной области, а не аналитических приложений.

  2. Интегрированность, то есть возможность загрузки данных из различных источников. С помощью широкого спектра конвертеров.

  3. Принцип не изменчивости. То есть данные после загрузки в хранилище не должны подвергаться изменениям, за исключением добавления новых данных.

  4. Поддержка хронологии. То есть данные должны быть точно привязаны к времени.

Требования к хранилищу данных. Сформулировано Ричердом кимболом.

  1. Высокая скорость получения данных из хранилища.

  2. Автоматическая поддержка не противоречивость данных. Достигается фильтрацией.

  3. Наличие удобных средств просмотра данных.

  4. Обеспечение целостности и достоверности.

25. Архитектуры хранилища данных.

В настоящее время разработано несколько архитектур хранилищ данных.

1.Многомерное хранилище данных. В основе лежит концепция многомерных «кубов» данных – гиперкубов. Гиперкуб – это многомерный массив. Технология мО Лаб является методикой оперативного извлечения данных из гиперкуба, то есть формирования срезов. Используются 2 основных понятия,

  • Измерения- это категориальные атрибуты(пример наименование товаров, фирм название городов) могут быть текстовыми и могут быть и числовыми, но являются дискретными они качественно описывают процесс, являются осями измерения гиперкуба.

  • Факты – количественно описывают бизнес процесс. Непрерывны по своему характеру(цена товара, сумма продаж, количество, з/а сотрудника) это числовые значения в гиперкубе.

Многомерный куб можно рассматривать как систему координат осями которой являются измерения(товар, дата, город), а фактами числовые значения соответствующие этим измерениям. Особенность технологии молаб(гиперкуб) в том что она позволяет реализовать сечения-срезы.

Сечение или срез – это выделение подмножества ячеек гиперкуба. При фиксированных значениях измерений. Пример: если делать сечение по измерению город и в качестве факта взять город москва, то сечение будет содержать историю продаж все товаров за период с января по декабрь. Технология молаб позволяет создавать многомерные таблицы, но количество измерений ограничится 3-4 позициями(кросс-таблица).

+ многомерного хранилища данных:

  • Наглядность по сравнению с совокупностью одномерных таблиц.

  • Возможность построения более широкого спектра аналитических запросов, то есть многообразие срезов.

  • Значительное уменьшение времени обработки запроса в хранилище данных.

-:

  • Требуется большой объем памяти, как ПЗУ и ОЗУ

  • Трудности при модификации

Таким образом применение многомерного хранилища данных целесообразно в тех случаях когда объем данных относительно не велик и количество измерений стабильно.