Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Проектирование информационных систем. Лекция 4.doc
Скачиваний:
57
Добавлен:
09.06.2015
Размер:
204.29 Кб
Скачать

Информация хранилища

Информационная

система Руководителя EIS

Оперативный

анализ данных

OLAP

Интеллектуальный

анализ данных

Data Mining

WEB –

публикации

Рис.4. Архитектура информационного хранилища

С технологической точки зрения к архитектуре ИХ выдвигаются следующие требования:

  • поддержка многопользовательского режима оперативного анализа в среде «клиент-сервер»;

  • автоматическое обновление информации из оперативных БД;

  • выполнение запросов без ограничений на количество измерений и уровней их адаптации;

  • удобный интерфейс, обеспечивающий простоту манипулирования данными.

Рассмотрим состав основных подсистем (О/П) ИХ.

Подсистема (П/С) хранения данных . Многомерное ХД может быть организовано в виде:

  • физической структурыMOLAP (Multidimensional OLAP), в которую с определенной периодичностью загружаются данные из файлов-источников, принадлежащим базам оперативных данных (например, один раз в день). Инструментальным средством, поддерживающим MOLAP, являются Oracle Express, Power Play, DataDirect;

  • виртуальной структуры – ROLAP (Relational OLAP), которая динамически используется при запросах из реляционных баз оперативных данных (формирование ответа на запрос к ИХ «на лету»). ROLAP рассматривается как надстройка над реляционными БД, обеспечивающая удобный интерфейс пользователя;

  • гибридной структуры – HOLAP (Hybrid OLAP), которая используется при построении многоуровневых ИХ, применяемых на разных уровнях управления больших корпораций. Инструментальным средством, поддерживающим HOLAP, является SAS System.

Анализ параметров использования MOLAP и ROLAP ИХ показывает, что внедрение и эксплуатация ROLAP – систем являются более простыми и дешевыми по сравнению с MOLAP – системами, но уступают последним в эффективности оперативного анализа.

Подсистема (П/С) метаинформации (репозиторий) – представляет собой структуры ИХ: состава показателей, иерархий агрегации измерений, форматов данных, используемых функций, физического размещения на сервере, прав доступа, частоты обновления.

Важнейшей функцией репозитария является представление схем отображения структуры данных файлов-источников на структуре данных ИХ, в соответствии с которой осуществляется периодическая загрузка MOLAP – хранилищ или непосредственная реализация запросов «на лету» в ROLAP – хранилищах. Через репозитарий осуществляется интерпретация запросов к ИХ на проведение оперативного анализа данных.

Подсистема преобразования данных (загрузка хранилища).

Подсистема загрузки ИХ создается только для MOLAP- систем. Для ROLAP – систем в процессе выполнения запросов осуществляется преобразование данных из файлов-источников. Для обоих случаев необходимо выполнение следующих основных функций:

  • сбор данных – подразумевается передача данных из источников в ИХ, в соответствии со схемой отображения, представленной в репозитарии;

  • очистка данных – проверка непротиворечивости (целостности), исключение дублирования данных, отбраковка случайных данных, восстановление отсутствующих данных, приведение данных к единому формату;

  • агрегирование данных – суммирование итогов по заданным в репозитарии признакам агрегации.

Подсистема представления данных (организации витрин данных).

Витрина данных (Data Mart) – предметно-ориентированное хранилище, как правило, агрегированной информации, предназначенное для использования группой пользователей (10-15 чел.) в рамках конкретного вида деятельности предприятия (маркетинга, инжиниринга, финансового менеджмента и т.д.). Витрины данных могут создаваться независимо друг от друга и общего хранилища, но при этом возникает проблема согласования множества представлений данных. Витрины данных являются источником для общего хранилища компании. Обычно информационное хранилище и витрины данных разрабатываются параллельно.

Подсистема оперативного анализа данных – используется лицами, подготавливающими информацию для принятия решений, путем выполнения различных статистических группировок исходных данных.

Для оперативного анализа данных используются следующие базовые операции:

  • Поворот. Добавление нового признака анализа.

  • Проекция. Выборка подмножества по задаваемой совокупности измерений. При этом значения в ячейках, лежащих на оси проекции, суммируются.

  • Раскрытие. Декомпозиция признака агрегации на компоненты (/: признак года разбивается на кварталы).

  • Свертка. Обратная операция раскрытия.

  • Сечение. Выделение подмножества данных по конкретным значениям одного или нескольких измерений.

Подсистема интеллектуального анализа данных (извлечения знаний)

Используется специальной категорией пользователей-аналитиков, которые на основе ИХ обнаруживают закономерности в деятельности предприятия и на рынке, используемые в дальнейшем для обоснования стратегических или тактических решений. Типичными задачами интеллектуального анализа являются:

установление корреляции, причинно-следственных связей и временных связей событий (/: определение местоположения прибыльных предприятий);

классификация ситуаций, позволяющая обобщать конкретные события и классы

(/: определение типичного профиля покупателя конкретных видов продукции);

прогнозирование развития ситуаций (прогнозирование цен, объемов продаж, производства).

К основным методам интеллектуального анализа данных относятся:

  • Методы многомерного статистического анализа;

  • Индуктивные методы построения деревьев решений;

  • Нейронные сети.

Подсистема «Информационная система руководителя» - предназначена для лиц, принимающих решения. В качестве интерфейса руководителям предприятий предлагается набор стандартных отчетов и графиков, настраиваемых на потребности руководителя через систему меню.

Подсистема WEB – публикации - предполагает преобразование полученной из ИХ информации в HTML – вид, доступный для ее просмотра удаленными клиентами.

Технология проектирования ИХ

Интеграция множества источников данных в единое ИХ – это трудоемкая и дорогостоящая проектная задача. Проектирование системы оперативного анализа данных на основе ИХ выдвигает такие требования, как очередность внедрения компонентов ИХ, обеспечение быстрой отдачи от внедрения адаптивность физической и логической структуры ИХ к изменяющимся информационным потребностям. При проектировании ИХ на основе материалов предпроектного обследования осуществляется параметризация проекта создания ИХ и выделяются все необходимые материальные, финансовые, людские и временные ресурсы на выполнение проектных работ: формируются цели и задачи, области применения и пользователи ИХ, устанавливаются источники информации, информационные потребности пользователей.

Целями создания ИХ являются:

  1. Реинжиниринг и непрерывный инжиниринг процессов и структуры управления предприятием;

  2. Повышение качества и оперативности обоснования управленческих решений на стратегическом, тактическом и оперативном уровнях;

  3. Упрощение документооборота для процесса принятия управленческих решений и др.

С помощью ИХ решаются следующие задачи:

  • Бизнес-планирование - обоснование принятия стратегических решений;

  • Контроллинг - анализ финансово-хозяйственной деятельности и выявление резервов совершенствования БП предприятия;

  • Оперативный мониторинг и сравнительный анализ важнейших показателей деятельности предприятия.

Пользователями ИХ являются руководители, референты руководителей, менеджеры функциональных подразделений, аналитики.

ИХ применяются для анализа и прогнозирования осуществления БП в разрезах типов клиентов, продуктов, используемых технологий, каналов распределения, направлений функциональной деятельности (продаж, производства, закупок, финансов, персонала) и др.

Источниками данных для ИХ являются:

  • Внутренние источники (базы оперативных данных об объемах продаж, производства, закупок, издержек по центрам затрат, состоянии материальных, финансовых, людских ресурсов);

  • Внешние источники (официальные статистические данные о деятельности отрасли, смежных отраслях, состоянии финансов, нормативная государственная информация, маркетинговая информация об исследовании рынка, состоянии конкурентов, коммерческие БД компаний в области информационного бизнеса.

Источники данных характеризуются следующими параметрами: территориальное расположение, административное подчинение, периодичность обновления, конфиденциальность и достоверность информации, форматы данных и характеристики программно-технической среды, объемы данных.

С целью удовлетворения информационных потребностей пользователей выполняется анализ функций работников в рамках видов деятельности (бизнес-планирования, бюджетирования, маркетинга и т.д.). В итоге выявляется перечень регламентированных информационно-справочных документов и предполагаемых направлений формирования произвольных запросов.

Разработка концептуальной модели ИХ осуществляется на основе ТЗ и ТЭО. Результатом выполнения данного этапа имеем логическую структуру данных ИХ, схему преобразования данных, логическую структуру данных витрин и схему представления данных.

Проектирование логической структуры происходит на основе анализа статистики использования информационно-справочных документов в процессе решения задач принятия решений. В результате выполнения операции производятся:

  • отбор признаков анализа;

  • построение схем агрегации показателей;

  • построение схем обобщения признаков;

  • определение временного диапазона хранения показателей;

  • отбор первичных и производных показателей для хранения;

  • выбор типа логической структуры ИХ;

  • распределение показателей по типам логической структуры ИХ.

Основными методами выполнения операции отбора и структуризации показателей и признаков являются матричные, графо-аналитические и тезаурусные1 методы. Сложность структуры данных показателей предопределяет выбор ее типа: «звезды» с однородной структурой признаков для всех показателей или «расширенной снежинки» с применением нескольких типов хранилищ показателей, т.е. распределение показателей по типам хранилищ.

Проектирование процессов извлечения и схемы преобразования данных производится путем анализа выявленных на этапе идентификации проблемной области источников данных. В итоге формируется уточненный состав источников данных с определенными схемами фильтрации и агрегации2 данных для помещения в ИХ. Сложность схем отображения источников данных в структуру хранилища предполагает выбор типа ИХ: MOLAP, ROLAP, HOLAP.

Проектирование логической структуры витрин и схемы представления данных предполагает распределение показателей вместе с измерениями по витринам данных на основе выявленных информационных потребностей пользователей. Для витрин данных, как и для ИХ, проектируется структура данных и устанавливается схема отображения структуры ИХ на структуры витрин. Данная операция может предшествовать разработке структуры ИХ. Т.е. сначала создаются структуры витрин данных (например, по основным видам деятельности или структурным подразделениям), а затем эти структуры данных интегрируются в общую структуру ИХ.

Формализация ИХ завершает этап технического проектирования ИХ. На основе разработанной архитектуры ИХ (логической структуры витрины данных и логической структуры ИХ) и универсумов технических средств осуществляется выбор схемы размещения ИХ в сетевой вычислительной среде и программно-технических средств реализации ИХ.

Выбор схемы размещения ИХ в сетевой среде зависит от выбранного типа организации и предполагает определение числа уровней хранения:

  • структура данных реализована централизованно на одном MOLAP-сервере;

  • структура данных распределена на нескольких серверах в соответствии с ROLAP-организацией;

  • наиболее оперативные и агрегированные данные хранятся на быстродействующем MOLAP- сервере, а детальные данные в ROLAP-хранилище – на менее производительных серверах

Определение требований к конфигурации и числа клиентских мест выполняется на основе структуры витрин данных, выявленных категорий пользователей и используемых методов интеллектуального анализа, которые в совокупности определяют требования подключения к OLAP-серверу. Для каждого пользователя устанавливаются права доступа к ИХ.

Выбор программно-технических средств ИХ (серверов, клиентских мест, телекоммуникационного оборудования, инструментальных программных средств) зависит от физической конфигурации системы в части объемов памяти, быстродействия, надежности и выбранной клиент-серверной архитектуры ИХ.

Расчет объемов ИХ производится путем суммирования объемов хранимых данных на всех MOLAP-серверах с учетом необходимого индексирования (специальных индексирующих таблиц для доступа к основным данным), а также объемов метаинформации репозитария для MOLAP и ROLAP– организации. Объемы ИХ рассчитываются на текущий момент и на перспективу с учетом внедрения всех компонентов системы.

Наполнение репозитария ИХ осуществляется на основе ввода определений:

  • структуры ИХ, источников и витрин данных;

  • правил ввода данных в ИХ из одного источника, из нескольких источников, при отсутствии данных;

  • правил преобразования форматов при поступлении данных из источника и при выводе в предоставление пользователю;

  • параметров использования методов интеллектуального анализа данных.

Разработка и отладка программных компонентов производится путем параметрической настройки ППП.

Наполнение ИХ предполагает автоматическую загрузку информации из источников данных в ИХ с MOLAP-организацией, которая повторяется с заданной в репозитории периодичностью. Эта операция в последующем предполагает очистку ИХ от ненужных и устаревших данных; управление данными на различных уровнях хранения; автоматическое обновление агрегированных данных.

На этапе внедрения и опытной эксплуатации ИХ осуществляется комплексное тестирование всех компонентов ИХ с исправлением всех возникающих ошибок, обучение пользователей, постоянное администрирование в соответствии с установленными правилами и документацией проекта.

*Длинная транзакция– совокупность операций делового процесса, требующих обращения к КЭИС, каждая из которых не имеет ценности без выполнения всей совокупности.

корреляция – зависимость, соотношение

1Тезаурус – словарь понятий, который разрабатывается с целью проведения индексации документов, показателей и информационных запросов.

2Агрегирование – объединение по функциональному признаку