ИИС ЛР 3-12
.pdfМИ НИСТ Е РСТ ВО СЕ ЛЬСК ОГ О ХОЗЯЙС Т ВА РОССИЙС КОЙ ФЕ Д Е РАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ – МСХА имени К.А. ТИМИРЯЗЕВА
(ФГОУ ВПО РГАУ - МСХА имени К.А. Тимирязева)
Кафедра экономической кибернетики
В.И. Карпузова, Э.Н. Скрипченко, Ю.Р. Стратонович, К.В. Чернышева
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЭКОНОМИКЕ
Системы поддержки принятия решений
на базе решений аналитической платформы Deductor Studio Academic 5.1
Учебное пособие для студентов экономического факультета
Москва 2010
СОДЕРЖАНИЕ |
|
ГЛАВА 1 СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ. |
|
АНАЛИТИЧЕСКАЯ ПЛАТФОРМА DEDUCTOR STUDIO............................. |
3 |
1.1 АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ DEDUCTOR WAREHOUSE .......................... |
3 |
Теоретическая часть....................................................................................... |
3 |
Практическая часть........................................................................................ |
8 |
Тема 1 Проектирование структуры хранилища данных............................... |
8 |
Тема 2 Наполнение хранилища данных ......................................................... |
12 |
1.2 АНАЛИЗ ДАННЫХ ....................................................................................... |
15 |
Теоретическая часть..................................................................................... |
15 |
Практическая часть...................................................................................... |
25 |
Тема 1 Простая аналитика ........................................................................... |
25 |
Тема 2 Импорт данных.................................................................................. |
29 |
Тема 3 Трансформация (объединение) данных............................................. |
35 |
Тема 4 Построение дерева решений на основе нейронной сети ................. |
38 |
Тема 5 Кластеризация с помощью самоорганизующей карты Кохонена .. |
43 |
Тема 6 Прогноз временного ряда................................................................... |
49 |
Тема 7 Прогнозирование временного ряда с использованием парциальной |
|
обработки и скользящего окна (очистка и трансформация данных) ........ |
56 |
Тема 8 Прогнозирование временного ряда на основе линейной регрессии.. |
66 |
ПРИЛОЖЕНИЯ ................................................................................................... |
71 |
ПРИЛОЖЕНИЕ А СОДЕРЖИМОЕ ФАЙЛА ФИО_2004.XLS....................................... |
71 |
ПРИЛОЖЕНИЕ Б СОДЕРЖИМОЕ ФАЙЛА ФИО_2006.XLS ....................................... |
72 |
ПРИЛОЖЕНИЕ В - СПИСОК РАЙОНОВ МОСКОВСКОЙ ОБЛАСТИ.............................. |
73 |
ПРИЛОЖЕНИЕ Г – НАДОЙ, Т ................................................................................. |
75 |
2
Глава 1 Системы поддержки принятия решений. Аналитическая плат-
форма Deductor Studio
1.1 Архитектура хранилища данных Deductor Warehouse
Цель работы. Ознакомиться с понятиемХранилище данных, его на-
значением, структурой.
Теоретическая часть
Хранилище данных (ХД) Deductor Warehouse – это специально органи-
зованная база данных, ориентированная на решение задач анализа данных и поддержки принятия решений, обеспечивающая максимально быстрый и удоб-
ный доступ к информации.
Deductor Warehouse соответствует модели ROLAP (схема «снежинка») и
может быть развернуто на одной из следующих СУБД:
·Firebird 1.5 и выше;
·MS SQL Server 2000 и выше;
·Oracle начиная с версии 9i.
Локально (база данных Firebird) с использованием библиотеки
fbclient.dll (поставляется вместе с Deductor).
Выбор той или иной СУБД часто зависит от многих критериев: стои-
мость, производительность, сложность администрирования и др.
Замечание. Возможность работы с хранилищами данных наСУБД MS SQL Server и Oracle доступна только в Deductor Enterprise.
Назначение хранилища данных– своевременно обеспечить аналитика всей информацией, необходимой для проведения анализа, построения моделей и принятия решений.
Цель хранилища данных – не анализ данных, а подготовка данных для анализа и их консолидация.
Хранилище данных включает в себя потоки данных, поступающие из различных источников, и специальный семантический слой, содержащий так
3
называемые метаданные (данные о данных). Семантический слой и сами дан-
ные хранятся в одной СУБД.
Запрос к хранилищу данных осуществляется непосредственно через се-
мантический слой.
Объектами хранилища данных являются: измерение, атрибут, факт,
ссылка на измерение, процесс, атрибут процесса.
Все данные в хранилище хранятся в структурах типа«снежинка», где в центре расположены таблицы фактов, а «лучами» являются измерения, причем каждое измерение может ссылаться на другое измерение (рисунок 63).
Рисунок 1 – Структура ХД
Измерение – это последовательность значений одного из анализируе-
мых параметров. Например, для параметра «время» это последовательность ка-
лендарных дней, для параметра «регион» – список городов. Каждое значение измерения может быть представлено координатой в многомерном пространстве процесса, например, товар, клиент, дата.
Атрибут – это свойство измерения (т.е. точки в пространстве). Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее опи-
сать исследуемое измерение. Например, для измерения Товар атрибутами могут выступать Цвет, Вес, Габариты.
4
Факт – значение, соответствующее измерению. Факты – это данные, от-
ражающие сущность события. Как правило, фактами являются численные зна-
чения, например, сумма и количество отгруженного товара, скидка.
Ссылка на измерение – это установленная связь между двумя и более измерениями. Дело в том, что некоторые бизнес – понятия (соответствующие измерениям в хранилище данных) могут образовывать иерархии, например, То-
вары могут включать Продукты питания и Лекарственные препараты, кото-
рые, в свою очередь, подразделяются на группы продуктов и лекарств и т. д. В
этом случае первое измерение содержит ссылку на второе, второе – на третье и т.д.
Процесс – совокупность измерений, фактов и атрибутов. По сути, про-
цесс и есть «снежинка». Процесс описывает определенное действие, например,
продажи товара, отгрузки, поступления денежных средств и прочее.
Атрибут процесса – свойство процесса. Атрибут процесса в отличие от измерения не определяет координату в многомерном пространстве. Это спра-
вочное значение, относящееся к процессу, например, № накладной, Валюта до-
кумента и так далее. Значение атрибута процесса в отличие от измерения мо-
жет быть не всегда определено.
Часто сложно определиться, что делать атрибутом процесса, а что изме-
рением. Универсальных рецептов на все случаи не существует. Но можно дать общие рекомендации:
1 совокупность измерений процесса должна однозначно определять единственную запись в таблице процесса(«точку» в многомерном пространст-
ве);
2 если существуют иерархии, то выбор должен быть в пользу измере-
ния;
3если по объекту хранилища данных предполагается в будущем делать частые «срезы», то снова лучше отдать предпочтение измерению;
4наличие возможных пропусков (необязательное поле) говорит о том,
что объект лучше сделать атрибутом процесса.
5
В Deductor Warehouse может одновременно храниться множество про-
цессов, имеющих общие измерения, например, измерение Товар, фигурирую-
щее в процессах Поступления и Отгрузка.
Все загружаемые в ХД данные обязательно должны быть определены как измерение, атрибут либо факт (рисунок 64).
Рисунок 2 – Проектирование структуры ХД
Принадлежность данных к типу (измерение, ссылка на измерение, атри-
бут или факт) содержится в семантическом слое хранилища.
Следует знать, что:
1 таблицы измерений содержат только справочную информацию(коды,
наименования и т.п.) и ссылки на другие измерения при необходимости; 2 таблица процесса содержит только факты и коды измерений(без их
атрибутов) (рисунок 65).
6
Рисунок 3 – Пример схемы «снежинка»
В Таблице процесса хранится информация о значениях измерений(как правило, это код измерения) и о значениях фактов. В первой строке содержит-
ся информация, что 05.06.2006 г. клиент № 3 приобрел товар № 386 в количест-
ве 100 шт. на сумму 25 500, при этом наценка составила3 825. Информация с описанием (атрибутами) клиентов и товаров находится в таблицах измерений,
которые можно сравнить со словарями, хранящими справочную информацию по измерениям. Столбец Дата является измерением без атрибутов, и поэтому она присутствует только в таблице процесса.
7
Контрольные вопросы
1Какая схема реляционного ХД используется в Deductor Warehouse?
2Перечислите объекты хранилища Deductor Warehouse и дайте их опре-
деления.
3 Чем отличается атрибут процесса от измерения?
4 Как должна выглядеть структура таблицы-справочника, если имеются иерархии?
5 Что нужно сделать, если в приведенном примере выбранный уровень детализации продаж по дням не устраивает– необходимо сохранить макси-
мальную детализацию исходных данных?
6 Почему в приведенном примере поле Час покупки не может быть фак-
том?
7 Что такое Редактор ХД в Deductor Studio?
8Как создать новое пустое ХД?
9Как сделать иерархию измерений?
10Какие типы данных могут быть у объектов хранилищаDeductor
Warehouse?
11 Какие срезы для измерений типа дата/время предусмотрены в
Deductor Warehouse?
12Что такое динамический фильтр?
13Кому динамический фильтр, вероятнее всего, чаще понадобится –
аналитику Deductor Studio или пользователю Deductor Viewer?
Практическая часть
Тема 1 Проектирование структуры хранилища данных
Задания
1 Подготовить исходные данные для загрузки в хранилище.
Последовательность выполнения задания:
Øсоздать в папке Мои документы папку Практика, в ней личную папку;
8
Øскопировать в личную папку базу данных Борей.mdb (путь: C:\Program
Files\Microsoft Office\Office10\Samples);
Øзагрузить базу данных Борей.mdb; закрыть кнопочную форму базы;
Øоткрыть таблицу Товары в режиме Конструктор; установить для поля
КодТипа на вкладке Подстановка элемент управления Поле.
Øоткрыть таблицу Заказы в режиме Конструктор; установить для поля
КодСотрудника на вкладке Подстановка элемент управления Поле.
Øоткрыть таблицу Заказано в режимеКонструктор; установить для
поля КодТовара на вкладке Подстановка элемент управления Поле; в таблице
Заказано установить для поля Скидка формат: Фиксированный, число десятич-
ных знаков – 2.
Øвыгрузить в личную папку данные таблицТипы, Товары, Сотрудники
в текстовые файлы: Типы.txt, Товары.txt, Сотрудники.txt: Файл – Экспорт –
тип файла: TextFiles (Текстовые файлы (с разделителями табуляции) –
разделитель полей: табуляция – включить имена полей в первой строке.
Øсоздать запрос Заказы2 в файле Борей.mdb в режиме Конструктор для соединения двух таблиц Заказано и Заказы по полю КодЗаказа; в запросе ука-
зать поля: Код заказа, Товар, Цена, Количество, Скидка, Клиент, Сотрудник,
Дата размещения, Дата назначения, Дата исполнения, Доставка, Стоимость доставки, Получатель.
Øустановить фиксированный формат данных и два десятичных знака для полей Цена и СтоимостьДоставки.
Øустановить краткий формат даты для полейДатаРазмещения, Дата-
Назначения, ДатаИсполнения.
Øсохранить запрос с именем Заказы2.
Øвыгрузить данные запросаЗаказы2 в Excel с помощью кнопки
Анализ в Microsoft Excel на панели инструментов.
Øсохранить файл Заказы2.xls как текстовый файл с разделителями табу-
ляции в личной папке с именем Заказы.txt.
9
2 Создать новое пустое хранилище данных.
Последовательность выполнения задания:
Øзагрузить аналитическую платформу Deductor;
Øперейти на панель Подключения и вызвать Мастер подключений;
Øвыбрать тип источника подключения(Deductor Warehouse). Нажать
[Далее];
Øуказать полный путь создаваемой базы данных: (в личной папке с име-
нем zakaz.gdb);
Øнажать кнопку Создать файл базы данных с необходимой структу-
рой метаданных; нажать [OK] и [Далее];
Øвыбрать способ отображения данных: Сведения и Метаданные; на-
жать [Далее];
Øзадать имя: Zakaz, метку: Заказы Борей и описание для хранилища (по своему усмотрению); нажать [Готово];
Øпроверить на дереве узлов наличие метки хранилища Заказы Борей. 3 Разработать структуру нового хранилища данных.
Последовательность выполнения задания
Øвызвать Редактор метаданных, используя кнопку Открыть конст-
руктор; |
|
|
|
Øустановить курсор на узел Измерения и с помощью кнопки |
[Доба- |
вить] создать первое измерение; |
|
|
|
Øназначить ему имя: KodTipa и метку: КодТипа; |
|
|
|
|
|
|
|
Рисунок 4 – Вид окна редактора метаданных
10