Информация хранилища
Информационная
система Руководителя
EIS
Оперативный
анализ данных OLAP
Интеллектуальный
анализ данных Data
Mining WEB
–
публикации
Рис.4. Архитектура информационного хранилища
С технологической точки зрения к архитектуре ИХ выдвигаются следующие требования:
поддержка многопользовательского режима оперативного анализа в среде «клиент-сервер»;
автоматическое обновление информации из оперативных БД;
выполнение запросов без ограничений на количество измерений и уровней их адаптации;
удобный интерфейс, обеспечивающий простоту манипулирования данными.
Рассмотрим состав основных подсистем (О/П) ИХ.
Подсистема (П/С) хранения данных . Многомерное ХД может быть организовано в виде:
физической структуры – MOLAP (Multidimensional OLAP), в которую с определенной периодичностью загружаются данные из файлов-источников, принадлежащим базам оперативных данных (например, один раз в день). Инструментальным средством, поддерживающим MOLAP, являются Oracle Express, Power Play, DataDirect;
виртуальной структуры – ROLAP (Relational OLAP), которая динамически используется при запросах из реляционных баз оперативных данных (формирование ответа на запрос к ИХ «на лету»). ROLAP рассматривается как надстройка над реляционными БД, обеспечивающая удобный интерфейс пользователя;
гибридной структуры – HOLAP (Hybrid OLAP), которая используется при построении многоуровневых ИХ, применяемых на разных уровнях управления больших корпораций. Инструментальным средством, поддерживающим HOLAP, является SAS System.
Анализ параметров использования MOLAP и ROLAP ИХ показывает, что внедрение и эксплуатация ROLAP – систем являются более простыми и дешевыми по сравнению с MOLAP – системами, но уступают последним в эффективности оперативного анализа.
Подсистема (П/С) метаинформации (репозиторий) – представляет собой структуры ИХ: состава показателей, иерархий агрегации измерений, форматов данных, используемых функций, физического размещения на сервере, прав доступа, частоты обновления.
Важнейшей функцией репозитария является представление схем отображения структуры данных файлов-источников на структуре данных ИХ, в соответствии с которой осуществляется периодическая загрузка MOLAP – хранилищ или непосредственная реализация запросов «на лету» в ROLAP – хранилищах. Через репозитарий осуществляется интерпретация запросов к ИХ на проведение оперативного анализа данных.
Подсистема преобразования данных (загрузка хранилища).
Подсистема загрузки ИХ создается только для MOLAP- систем. Для ROLAP – систем в процессе выполнения запросов осуществляется преобразование данных из файлов-источников. Для обоих случаев необходимо выполнение следующих основных функций:
сбор данных – подразумевается передача данных из источников в ИХ, в соответствии со схемой отображения, представленной в репозитарии;
очистка данных – проверка непротиворечивости (целостности), исключение дублирования данных, отбраковка случайных данных, восстановление отсутствующих данных, приведение данных к единому формату;
агрегирование данных – суммирование итогов по заданным в репозитарии признакам агрегации.
Подсистема представления данных (организации витрин данных).
Витрина данных (Data Mart) – предметно-ориентированное хранилище, как правило, агрегированной информации, предназначенное для использования группой пользователей (10-15 чел.) в рамках конкретного вида деятельности предприятия (маркетинга, инжиниринга, финансового менеджмента и т.д.). Витрины данных могут создаваться независимо друг от друга и общего хранилища, но при этом возникает проблема согласования множества представлений данных. Витрины данных являются источником для общего хранилища компании. Обычно информационное хранилище и витрины данных разрабатываются параллельно.
Подсистема оперативного анализа данных – используется лицами, подготавливающими информацию для принятия решений, путем выполнения различных статистических группировок исходных данных.
Для оперативного анализа данных используются следующие базовые операции:
Поворот. Добавление нового признака анализа.
Проекция. Выборка подмножества по задаваемой совокупности измерений. При этом значения в ячейках, лежащих на оси проекции, суммируются.
Раскрытие. Декомпозиция признака агрегации на компоненты (/: признак года разбивается на кварталы).
Свертка. Обратная операция раскрытия.
Сечение. Выделение подмножества данных по конкретным значениям одного или нескольких измерений.
Подсистема интеллектуального анализа данных (извлечения знаний) –
Используется специальной категорией пользователей-аналитиков, которые на основе ИХ обнаруживают закономерности в деятельности предприятия и на рынке, используемые в дальнейшем для обоснования стратегических или тактических решений. Типичными задачами интеллектуального анализа являются:
установление корреляции, причинно-следственных связей и временных связей событий (/: определение местоположения прибыльных предприятий);
классификация ситуаций, позволяющая обобщать конкретные события и классы
(/: определение типичного профиля покупателя конкретных видов продукции);
прогнозирование развития ситуаций (прогнозирование цен, объемов продаж, производства).
К основным методам интеллектуального анализа данных относятся:
Методы многомерного статистического анализа;
Индуктивные методы построения деревьев решений;
Нейронные сети.
Подсистема «Информационная система руководителя» - предназначена для лиц, принимающих решения. В качестве интерфейса руководителям предприятий предлагается набор стандартных отчетов и графиков, настраиваемых на потребности руководителя через систему меню.
Подсистема WEB – публикации - предполагает преобразование полученной из ИХ информации в HTML – вид, доступный для ее просмотра удаленными клиентами.
Технология проектирования ИХ
Интеграция множества источников данных в единое ИХ – это трудоемкая и дорогостоящая проектная задача. Проектирование системы оперативного анализа данных на основе ИХ выдвигает такие требования, как очередность внедрения компонентов ИХ, обеспечение быстрой отдачи от внедрения адаптивность физической и логической структуры ИХ к изменяющимся информационным потребностям. При проектировании ИХ на основе материалов предпроектного обследования осуществляется параметризация проекта создания ИХ и выделяются все необходимые материальные, финансовые, людские и временные ресурсы на выполнение проектных работ: формируются цели и задачи, области применения и пользователи ИХ, устанавливаются источники информации, информационные потребности пользователей.
Целями создания ИХ являются:
Реинжиниринг и непрерывный инжиниринг процессов и структуры управления предприятием;
Повышение качества и оперативности обоснования управленческих решений на стратегическом, тактическом и оперативном уровнях;
Упрощение документооборота для процесса принятия управленческих решений и др.
С помощью ИХ решаются следующие задачи:
Бизнес-планирование - обоснование принятия стратегических решений;
Контроллинг - анализ финансово-хозяйственной деятельности и выявление резервов совершенствования БП предприятия;
Оперативный мониторинг и сравнительный анализ важнейших показателей деятельности предприятия.
Пользователями ИХ являются руководители, референты руководителей, менеджеры функциональных подразделений, аналитики.
ИХ применяются для анализа и прогнозирования осуществления БП в разрезах типов клиентов, продуктов, используемых технологий, каналов распределения, направлений функциональной деятельности (продаж, производства, закупок, финансов, персонала) и др.
Источниками данных для ИХ являются:
Внутренние источники (базы оперативных данных об объемах продаж, производства, закупок, издержек по центрам затрат, состоянии материальных, финансовых, людских ресурсов);
Внешние источники (официальные статистические данные о деятельности отрасли, смежных отраслях, состоянии финансов, нормативная государственная информация, маркетинговая информация об исследовании рынка, состоянии конкурентов, коммерческие БД компаний в области информационного бизнеса.
Источники данных характеризуются следующими параметрами: территориальное расположение, административное подчинение, периодичность обновления, конфиденциальность и достоверность информации, форматы данных и характеристики программно-технической среды, объемы данных.
С целью удовлетворения информационных потребностей пользователей выполняется анализ функций работников в рамках видов деятельности (бизнес-планирования, бюджетирования, маркетинга и т.д.). В итоге выявляется перечень регламентированных информационно-справочных документов и предполагаемых направлений формирования произвольных запросов.
Разработка концептуальной модели ИХ осуществляется на основе ТЗ и ТЭО. Результатом выполнения данного этапа имеем логическую структуру данных ИХ, схему преобразования данных, логическую структуру данных витрин и схему представления данных.
Проектирование логической структуры происходит на основе анализа статистики использования информационно-справочных документов в процессе решения задач принятия решений. В результате выполнения операции производятся:
отбор признаков анализа;
построение схем агрегации показателей;
построение схем обобщения признаков;
определение временного диапазона хранения показателей;
отбор первичных и производных показателей для хранения;
выбор типа логической структуры ИХ;
распределение показателей по типам логической структуры ИХ.
Основными методами выполнения операции отбора и структуризации показателей и признаков являются матричные, графо-аналитические и тезаурусные1 методы. Сложность структуры данных показателей предопределяет выбор ее типа: «звезды» с однородной структурой признаков для всех показателей или «расширенной снежинки» с применением нескольких типов хранилищ показателей, т.е. распределение показателей по типам хранилищ.
Проектирование процессов извлечения и схемы преобразования данных производится путем анализа выявленных на этапе идентификации проблемной области источников данных. В итоге формируется уточненный состав источников данных с определенными схемами фильтрации и агрегации2 данных для помещения в ИХ. Сложность схем отображения источников данных в структуру хранилища предполагает выбор типа ИХ: MOLAP, ROLAP, HOLAP.
Проектирование логической структуры витрин и схемы представления данных предполагает распределение показателей вместе с измерениями по витринам данных на основе выявленных информационных потребностей пользователей. Для витрин данных, как и для ИХ, проектируется структура данных и устанавливается схема отображения структуры ИХ на структуры витрин. Данная операция может предшествовать разработке структуры ИХ. Т.е. сначала создаются структуры витрин данных (например, по основным видам деятельности или структурным подразделениям), а затем эти структуры данных интегрируются в общую структуру ИХ.
Формализация ИХ завершает этап технического проектирования ИХ. На основе разработанной архитектуры ИХ (логической структуры витрины данных и логической структуры ИХ) и универсумов технических средств осуществляется выбор схемы размещения ИХ в сетевой вычислительной среде и программно-технических средств реализации ИХ.
Выбор схемы размещения ИХ в сетевой среде зависит от выбранного типа организации и предполагает определение числа уровней хранения:
структура данных реализована централизованно на одном MOLAP-сервере;
структура данных распределена на нескольких серверах в соответствии с ROLAP-организацией;
наиболее оперативные и агрегированные данные хранятся на быстродействующем MOLAP- сервере, а детальные данные в ROLAP-хранилище – на менее производительных серверах
Определение требований к конфигурации и числа клиентских мест выполняется на основе структуры витрин данных, выявленных категорий пользователей и используемых методов интеллектуального анализа, которые в совокупности определяют требования подключения к OLAP-серверу. Для каждого пользователя устанавливаются права доступа к ИХ.
Выбор программно-технических средств ИХ (серверов, клиентских мест, телекоммуникационного оборудования, инструментальных программных средств) зависит от физической конфигурации системы в части объемов памяти, быстродействия, надежности и выбранной клиент-серверной архитектуры ИХ.
Расчет объемов ИХ производится путем суммирования объемов хранимых данных на всех MOLAP-серверах с учетом необходимого индексирования (специальных индексирующих таблиц для доступа к основным данным), а также объемов метаинформации репозитария для MOLAP и ROLAP– организации. Объемы ИХ рассчитываются на текущий момент и на перспективу с учетом внедрения всех компонентов системы.
Наполнение репозитария ИХ осуществляется на основе ввода определений:
структуры ИХ, источников и витрин данных;
правил ввода данных в ИХ из одного источника, из нескольких источников, при отсутствии данных;
правил преобразования форматов при поступлении данных из источника и при выводе в предоставление пользователю;
параметров использования методов интеллектуального анализа данных.
Разработка и отладка программных компонентов производится путем параметрической настройки ППП.
Наполнение ИХ предполагает автоматическую загрузку информации из источников данных в ИХ с MOLAP-организацией, которая повторяется с заданной в репозитории периодичностью. Эта операция в последующем предполагает очистку ИХ от ненужных и устаревших данных; управление данными на различных уровнях хранения; автоматическое обновление агрегированных данных.
На этапе внедрения и опытной эксплуатации ИХ осуществляется комплексное тестирование всех компонентов ИХ с исправлением всех возникающих ошибок, обучение пользователей, постоянное администрирование в соответствии с установленными правилами и документацией проекта.
*Длинная транзакция– совокупность операций делового процесса, требующих обращения к КЭИС, каждая из которых не имеет ценности без выполнения всей совокупности.
корреляция – зависимость, соотношение
1Тезаурус – словарь понятий, который разрабатывается с целью проведения индексации документов, показателей и информационных запросов.
2Агрегирование – объединение по функциональному признаку