Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9306

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.5 Mб
Скачать

40

городов. Каждое значение измерения может быть представлено координатой в многомерном пространстве процесса, например, город, клиент, дата.

Атрибут – это свойство измерения (т.е. точки в пространстве). Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее описать исследуемое измерение. Например, для измерения Код_региона атрибутом является Регион.

Факт – значение, соответствующее измерению. Факты – это данные, отражающие сущность события. В большинстве случаев фактами являются численные значения, например, сумма, количество, объем.

Ссылка на измерение – это установленная связь между двумя и более измерениями. Некоторые понятия (соответствующие измерениям в хранилище данных) могут образовывать иерархии, например, Недвижимость может включать Новостройки и Вторичное жилье, которые, в свою очередь, подразделяются на группы. В этом случае первое измерение содержит ссылку на второе, второе – на третье и т.д.

Процесс – совокупность измерений, фактов и атрибутов. Процесс описывает определенное действие, например, продажа, отгрузка, мониторинг.

Атрибут процесса – свойство процесса. Атрибут процесса в отличие от измерения не определяет координату в многомерном пространстве. Это справочное значение, относящееся к процессу. Значение атрибута процесса в отличие от измерения может быть не всегда определено.

Все загружаемые в ХД данные обязательно должны быть определены как измерение, атрибут либо факт.

Принадлежность данных к типу (измерение, ссылка на измерение, атрибут или факт) содержится в семантическом слое хранилища.

На логическом уровне различают две схемы построения РХД – «звезда» и «снежинка».

При использовании схемы «звезда» центральной является таблица фактов, с которой связаны все таблицы измерений. Таким образом, информация

41

о каждом измерении располагается в отдельной таблице, что упрощает их просмотр, а саму схему делает логически прозрачной и понятной пользователю. Для более эффективной работы с иерархическими измерениями была разработана модификация схемы «звезда», которая получила название «снежинка». Главной особенностью схемы «снежинка» является то, что информация об одном измерении может храниться в нескольких связанных таблицах. То есть если хотя бы одна из таблиц измерений имеет одну или несколько связанных с ней других таблиц измерений, то в этом случае всегда будет применяться схема «снежинка».

Вся информация в хранилище Deductor Warehouse хранится в структурах типа «снежинка» (пример на рис. 2.2), где в центре расположены таблицы фактов, а «лучами» являются измерения, причем каждое измерение может ссылаться на другое измерение.

 

 

 

 

 

 

Группа

Тип

 

Город

 

Список

 

показател.

 

 

показателей

 

города

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Областной

 

Арзамас

 

 

 

 

 

 

промышленность

 

экологич.

Районный

 

Кстово

 

инвестиции

 

экономич.

 

 

 

 

 

 

 

 

 

 

безработица

 

социальн.

 

 

 

 

 

 

 

 

 

 

 

Таблица фактов

 

 

количество населения

 

 

 

 

объем инвестиций

 

 

 

 

темп прироста

 

 

 

 

процент безработных

 

 

 

 

уровень зарплат

 

 

Регион

 

 

Дата

 

 

 

 

 

 

 

 

Волговятский

 

 

01.08.2011

Центральный

 

 

02.08.2011

 

 

 

03.08.2011

 

 

 

 

 

Рис. 2.2. Пример схемы РХД «снежинка»

42

2.3. Проектирование структуры хранилища данных

При проектировании ХД необходимо учитывать следующее:

-совокупность измерений процесса должна однозначно определять единственную запись в таблице процесса («точку» в многомерном пространстве);

-если существуют иерархии, то выбор должен быть в пользу измерения;

-если по объекту хранилища данных предполагается в будущем делать частые «срезы», то снова лучше отдать предпочтение измерению;

-таблицы измерений содержат только справочную информацию (коды, наименования и т.п.) и ссылки на другие измерения при необходимости;

-таблица процесса содержит только факты и коды измерений (без их атрибутов).

-наличие возможных пропусков (необязательное поле) говорит о том, что объект лучше сделать атрибутом процесса.

Проектирование структуры хранилища данных будет рассмотрено на примере задачи мониторинга водных объектов Нижегородской области.

Имеются данные о результатах проведения мониторинга водных ресурсов

с2008 по 2010 гг. по регионам Нижегородской области. Данные представлены текстовыми файлами «Измерения», «Водные объекты», «Загрязнители» (рис.2.3

– 2.5).

Обозначения и сокращения

БПК – биологическое потребление кислорода ИЗВ – индекс загрязнения воды ПДК – предельно допустимая концентрация

ХПК – химическое потребление кислорода

43

Рис. 2.3. Таблица «Измерения» (фрагмент)

Рис. 2.4. Таблица «Водные объекты» (фрагмент)

Рис. 2.5 Таблица «Загрязнители» (фрагмент)

44

Вглавной таблице «Измерения» (рис. 2.3), поля «Номер_записи», «Дата_измерения», «Код_объекта», «Код_загрязнителя» и «Створ» являются измерениями, а поле «Значение_загрязнителя» является фактом. Таким образом, эта таблица является описанием процесса мониторинга водных объектов.

Втаблице «Водные объекты» поле «Код_объекта» является измерением,

аполя «Тип_объекта», «Название_объекта», «Предприятие» и «Район» являются его атрибутами.

Втаблице «Загрязнители» поле «Код_загрязнителя» является измерением, а остальные поля: «Название_загрязнителя», «Единицы_ измерения» и «ПДК» являются его атрибутами.

На рис. 2.6 представлены объекты ХД «Мониторинг водных объектов». В таблице процесса хранится информация о значениях измерений: код измерения, номер записи, дата измерения и створ. Информация с описанием (атрибутами) водных объектов и загрязнителей находится в таблицах измерений.

При данной структуре ХД предполагается, что уникальность точки в пространстве определяется совокупностью измерений Номер записи + Дата + Код объекта + Код загрязнителя + Створ.

Можно выделить три основных подхода к использованию ХД:

регулярные отчеты – подготовка отчетов стандартных форм, получаемых многократно с определенной периодичностью;

нерегламентированные запросы – возможность получать ответы на нестандартные, сформированные «по требованию» вопросы;

интеллектуальный анализ данных – поддержка процесса интеллектуального анализа больших массивов данных с целью выявления скрытых закономерностей, структур и объектов, построения моделей, прогнозов и т. д.

45

Рис. 2.6. Процесс «Мониторинг»

46

2.4.Практическая работа «Создание ХД в Deductor Studio Academic»

1.Для создания нового хранилища данных в Deductor или подключения к существующему нужно перейти на закладку Подключения и запустить

Мастер подключений (рис. 2.7).

Рис. 2.7. Создание (подключение) хранилища данных

2.Пройти первые два шага, выбрав тип приемника (источника) Deductor Warehouse и тип базы данных Firebird.

3.На третьем шаге нужно задать параметры базы данных (рис. 2.8), в которой будет создана физическая и логическая структура хранилища данных:

база данных – voda.gdb;

логин - sysdba, пароль – masterkey;

установить флажок Сохранять пароль.

47

Рис. 2.8. Установка параметров базы данных

4.На следующем шаге выбирается версия для работы с ХД Deductor Warehouse 6.

5.На пятом шаге нажать кнопку Создать файл базы данных с необходимой структурой метаданных

Рис. 2.9. Вкладка Мастера подключения «Инструменты работы с ХД»

При этом выборе по указанному ранее пути будет создан файл voda.gdb. (появится сообщение об успешном создании). Это и есть пустое хранилище данных, готовое к работе.

6. На последних двух шагах осталось выбрать визуализатор для подключения (здесь это Сведения и Метаданные) и задать для нового хранилища имя VODA, метку ВОДА и описание «Хранилище данных с информацией о содержании вредных веществ в водных объектах Нижегородского региона».

48

Рис. 2.10. Настройка семантики узла подключения 7. После нажатия на кнопку Готово на дереве узлов подключений

появится метка хранилища.

Рис.2.11. Хранилище данных «ВОДА»

8. Для проверки доступа к новому ХД воспользуйтесь кнопкой . Если спустя некоторое время появится сообщение «Тестирование соединения прошло успешно», то хранилище готово к работе. Иначе нужно внести

изменения в параметры подключения ХД, используя кнопку .

9.Сохраните настройки подключений, нажав на кнопку .

10.Для проектирования структуры ХД вызвать Редактор метаданных

кнопкой на вкладке Подключения.

49

11.В открывшемся окне Редактора нужно нажать кнопку (разрешить редактирование).

12.Встав на узле Измерения, при помощи кнопки Добавить добавьте в метаданные первое измерение Номер записи со следующими параметрами:

Имя – LINE_ID;

Метка – Номер_записи;

Тип данных – целый.

13.Проделать аналогичные действия для создания всех остальных измерений, взяв параметры из таблицы:

 

 

 

Таблица 2

 

Параметры измерений

 

 

 

 

 

 

 

Измерение

Имя

Метка

Тип данных

 

 

(идентификатор)

 

 

 

Номер записи

LINE_ID

Запись.Номер

Целый

 

 

 

 

 

 

Дата

S_DATE

Дата

Дата/Время

 

 

 

 

 

 

Код объекта

OB_ID

Объект.Код

Строковый

 

 

 

 

 

 

Код загрязнителя

CONT_ID

Загрязнитель.Код

Строковый

 

 

 

 

 

 

Створ

RANGE

Створ

Строковый

 

 

 

 

 

 

14.К измерениям Код объекта и Код загрязнителя нужно добавить текстовые атрибуты. Для измерения Код_объекта это будут «Объект.Тип», «Объект.Наименование», «Предприятие» и «Район», для измерения Код_загрязнителя это будут «Загрязнитель.Наименование», «ПДК», «Единицы. Измерение» (рис. 2.11).

15.В окне Редактора, встав на узле Процессы, при помощи кнопки

Добавить введите в метаданные следующие параметры: Имя – MONITORING;

Метка – Мониторинг.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]