Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИИС ЛР 3-12

.pdf
Скачиваний:
51
Добавлен:
10.06.2015
Размер:
2.82 Mб
Скачать

МИ НИСТ Е РСТ ВО СЕ ЛЬСК ОГ О ХОЗЯЙС Т ВА РОССИЙС КОЙ ФЕ Д Е РАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ – МСХА имени К.А. ТИМИРЯЗЕВА

(ФГОУ ВПО РГАУ - МСХА имени К.А. Тимирязева)

Кафедра экономической кибернетики

В.И. Карпузова, Э.Н. Скрипченко, Ю.Р. Стратонович, К.В. Чернышева

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЭКОНОМИКЕ

Системы поддержки принятия решений

на базе решений аналитической платформы Deductor Studio Academic 5.1

Учебное пособие для студентов экономического факультета

Москва 2010

СОДЕРЖАНИЕ

 

ГЛАВА 1 СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ.

 

АНАЛИТИЧЕСКАЯ ПЛАТФОРМА DEDUCTOR STUDIO.............................

3

1.1 АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ DEDUCTOR WAREHOUSE ..........................

3

Теоретическая часть.......................................................................................

3

Практическая часть........................................................................................

8

Тема 1 Проектирование структуры хранилища данных...............................

8

Тема 2 Наполнение хранилища данных .........................................................

12

1.2 АНАЛИЗ ДАННЫХ .......................................................................................

15

Теоретическая часть.....................................................................................

15

Практическая часть......................................................................................

25

Тема 1 Простая аналитика ...........................................................................

25

Тема 2 Импорт данных..................................................................................

29

Тема 3 Трансформация (объединение) данных.............................................

35

Тема 4 Построение дерева решений на основе нейронной сети .................

38

Тема 5 Кластеризация с помощью самоорганизующей карты Кохонена ..

43

Тема 6 Прогноз временного ряда...................................................................

49

Тема 7 Прогнозирование временного ряда с использованием парциальной

 

обработки и скользящего окна (очистка и трансформация данных) ........

56

Тема 8 Прогнозирование временного ряда на основе линейной регрессии..

66

ПРИЛОЖЕНИЯ ...................................................................................................

71

ПРИЛОЖЕНИЕ А СОДЕРЖИМОЕ ФАЙЛА ФИО_2004.XLS.......................................

71

ПРИЛОЖЕНИЕ Б СОДЕРЖИМОЕ ФАЙЛА ФИО_2006.XLS .......................................

72

ПРИЛОЖЕНИЕ В - СПИСОК РАЙОНОВ МОСКОВСКОЙ ОБЛАСТИ..............................

73

ПРИЛОЖЕНИЕ Г – НАДОЙ, Т .................................................................................

75

2

Глава 1 Системы поддержки принятия решений. Аналитическая плат-

форма Deductor Studio

1.1 Архитектура хранилища данных Deductor Warehouse

Цель работы. Ознакомиться с понятиемХранилище данных, его на-

значением, структурой.

Теоретическая часть

Хранилище данных (ХД) Deductor Warehouse – это специально органи-

зованная база данных, ориентированная на решение задач анализа данных и поддержки принятия решений, обеспечивающая максимально быстрый и удоб-

ный доступ к информации.

Deductor Warehouse соответствует модели ROLAP (схема «снежинка») и

может быть развернуто на одной из следующих СУБД:

·Firebird 1.5 и выше;

·MS SQL Server 2000 и выше;

·Oracle начиная с версии 9i.

Локально (база данных Firebird) с использованием библиотеки

fbclient.dll (поставляется вместе с Deductor).

Выбор той или иной СУБД часто зависит от многих критериев: стои-

мость, производительность, сложность администрирования и др.

Замечание. Возможность работы с хранилищами данных наСУБД MS SQL Server и Oracle доступна только в Deductor Enterprise.

Назначение хранилища данных– своевременно обеспечить аналитика всей информацией, необходимой для проведения анализа, построения моделей и принятия решений.

Цель хранилища данных – не анализ данных, а подготовка данных для анализа и их консолидация.

Хранилище данных включает в себя потоки данных, поступающие из различных источников, и специальный семантический слой, содержащий так

3

называемые метаданные (данные о данных). Семантический слой и сами дан-

ные хранятся в одной СУБД.

Запрос к хранилищу данных осуществляется непосредственно через се-

мантический слой.

Объектами хранилища данных являются: измерение, атрибут, факт,

ссылка на измерение, процесс, атрибут процесса.

Все данные в хранилище хранятся в структурах типа«снежинка», где в центре расположены таблицы фактов, а «лучами» являются измерения, причем каждое измерение может ссылаться на другое измерение (рисунок 63).

Рисунок 1 – Структура ХД

Измерение – это последовательность значений одного из анализируе-

мых параметров. Например, для параметра «время» это последовательность ка-

лендарных дней, для параметра «регион» – список городов. Каждое значение измерения может быть представлено координатой в многомерном пространстве процесса, например, товар, клиент, дата.

Атрибут – это свойство измерения (т.е. точки в пространстве). Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее опи-

сать исследуемое измерение. Например, для измерения Товар атрибутами могут выступать Цвет, Вес, Габариты.

4

Факт – значение, соответствующее измерению. Факты – это данные, от-

ражающие сущность события. Как правило, фактами являются численные зна-

чения, например, сумма и количество отгруженного товара, скидка.

Ссылка на измерение – это установленная связь между двумя и более измерениями. Дело в том, что некоторые бизнес – понятия (соответствующие измерениям в хранилище данных) могут образовывать иерархии, например, То-

вары могут включать Продукты питания и Лекарственные препараты, кото-

рые, в свою очередь, подразделяются на группы продуктов и лекарств и т. д. В

этом случае первое измерение содержит ссылку на второе, второе – на третье и т.д.

Процесс – совокупность измерений, фактов и атрибутов. По сути, про-

цесс и есть «снежинка». Процесс описывает определенное действие, например,

продажи товара, отгрузки, поступления денежных средств и прочее.

Атрибут процесса – свойство процесса. Атрибут процесса в отличие от измерения не определяет координату в многомерном пространстве. Это спра-

вочное значение, относящееся к процессу, например, № накладной, Валюта до-

кумента и так далее. Значение атрибута процесса в отличие от измерения мо-

жет быть не всегда определено.

Часто сложно определиться, что делать атрибутом процесса, а что изме-

рением. Универсальных рецептов на все случаи не существует. Но можно дать общие рекомендации:

1 совокупность измерений процесса должна однозначно определять единственную запись в таблице процесса(«точку» в многомерном пространст-

ве);

2 если существуют иерархии, то выбор должен быть в пользу измере-

ния;

3если по объекту хранилища данных предполагается в будущем делать частые «срезы», то снова лучше отдать предпочтение измерению;

4наличие возможных пропусков (необязательное поле) говорит о том,

что объект лучше сделать атрибутом процесса.

5

В Deductor Warehouse может одновременно храниться множество про-

цессов, имеющих общие измерения, например, измерение Товар, фигурирую-

щее в процессах Поступления и Отгрузка.

Все загружаемые в ХД данные обязательно должны быть определены как измерение, атрибут либо факт (рисунок 64).

Рисунок 2 – Проектирование структуры ХД

Принадлежность данных к типу (измерение, ссылка на измерение, атри-

бут или факт) содержится в семантическом слое хранилища.

Следует знать, что:

1 таблицы измерений содержат только справочную информацию(коды,

наименования и т.п.) и ссылки на другие измерения при необходимости; 2 таблица процесса содержит только факты и коды измерений(без их

атрибутов) (рисунок 65).

6

Рисунок 3 – Пример схемы «снежинка»

В Таблице процесса хранится информация о значениях измерений(как правило, это код измерения) и о значениях фактов. В первой строке содержит-

ся информация, что 05.06.2006 г. клиент № 3 приобрел товар № 386 в количест-

ве 100 шт. на сумму 25 500, при этом наценка составила3 825. Информация с описанием (атрибутами) клиентов и товаров находится в таблицах измерений,

которые можно сравнить со словарями, хранящими справочную информацию по измерениям. Столбец Дата является измерением без атрибутов, и поэтому она присутствует только в таблице процесса.

7

Контрольные вопросы

1Какая схема реляционного ХД используется в Deductor Warehouse?

2Перечислите объекты хранилища Deductor Warehouse и дайте их опре-

деления.

3 Чем отличается атрибут процесса от измерения?

4 Как должна выглядеть структура таблицы-справочника, если имеются иерархии?

5 Что нужно сделать, если в приведенном примере выбранный уровень детализации продаж по дням не устраивает– необходимо сохранить макси-

мальную детализацию исходных данных?

6 Почему в приведенном примере поле Час покупки не может быть фак-

том?

7 Что такое Редактор ХД в Deductor Studio?

8Как создать новое пустое ХД?

9Как сделать иерархию измерений?

10Какие типы данных могут быть у объектов хранилищаDeductor

Warehouse?

11 Какие срезы для измерений типа дата/время предусмотрены в

Deductor Warehouse?

12Что такое динамический фильтр?

13Кому динамический фильтр, вероятнее всего, чаще понадобится –

аналитику Deductor Studio или пользователю Deductor Viewer?

Практическая часть

Тема 1 Проектирование структуры хранилища данных

Задания

1 Подготовить исходные данные для загрузки в хранилище.

Последовательность выполнения задания:

Øсоздать в папке Мои документы папку Практика, в ней личную папку;

8

Øскопировать в личную папку базу данных Борей.mdb (путь: C:\Program

Files\Microsoft Office\Office10\Samples);

Øзагрузить базу данных Борей.mdb; закрыть кнопочную форму базы;

Øоткрыть таблицу Товары в режиме Конструктор; установить для поля

КодТипа на вкладке Подстановка элемент управления Поле.

Øоткрыть таблицу Заказы в режиме Конструктор; установить для поля

КодСотрудника на вкладке Подстановка элемент управления Поле.

Øоткрыть таблицу Заказано в режимеКонструктор; установить для

поля КодТовара на вкладке Подстановка элемент управления Поле; в таблице

Заказано установить для поля Скидка формат: Фиксированный, число десятич-

ных знаков – 2.

Øвыгрузить в личную папку данные таблицТипы, Товары, Сотрудники

в текстовые файлы: Типы.txt, Товары.txt, Сотрудники.txt: Файл – Экспорт –

тип файла: TextFiles (Текстовые файлы (с разделителями табуляции) –

разделитель полей: табуляция – включить имена полей в первой строке.

Øсоздать запрос Заказы2 в файле Борей.mdb в режиме Конструктор для соединения двух таблиц Заказано и Заказы по полю КодЗаказа; в запросе ука-

зать поля: Код заказа, Товар, Цена, Количество, Скидка, Клиент, Сотрудник,

Дата размещения, Дата назначения, Дата исполнения, Доставка, Стоимость доставки, Получатель.

Øустановить фиксированный формат данных и два десятичных знака для полей Цена и СтоимостьДоставки.

Øустановить краткий формат даты для полейДатаРазмещения, Дата-

Назначения, ДатаИсполнения.

Øсохранить запрос с именем Заказы2.

Øвыгрузить данные запросаЗаказы2 в Excel с помощью кнопки

Анализ в Microsoft Excel на панели инструментов.

Øсохранить файл Заказы2.xls как текстовый файл с разделителями табу-

ляции в личной папке с именем Заказы.txt.

9

2 Создать новое пустое хранилище данных.

Последовательность выполнения задания:

Øзагрузить аналитическую платформу Deductor;

Øперейти на панель Подключения и вызвать Мастер подключений;

Øвыбрать тип источника подключения(Deductor Warehouse). Нажать

[Далее];

Øуказать полный путь создаваемой базы данных: (в личной папке с име-

нем zakaz.gdb);

Øнажать кнопку Создать файл базы данных с необходимой структу-

рой метаданных; нажать [OK] и [Далее];

Øвыбрать способ отображения данных: Сведения и Метаданные; на-

жать [Далее];

Øзадать имя: Zakaz, метку: Заказы Борей и описание для хранилища (по своему усмотрению); нажать [Готово];

Øпроверить на дереве узлов наличие метки хранилища Заказы Борей. 3 Разработать структуру нового хранилища данных.

Последовательность выполнения задания

Øвызвать Редактор метаданных, используя кнопку Открыть конст-

руктор;

 

 

Øустановить курсор на узел Измерения и с помощью кнопки

[Доба-

вить] создать первое измерение;

 

 

Øназначить ему имя: KodTipa и метку: КодТипа;

 

 

 

 

 

 

 

Рисунок 4 – Вид окна редактора метаданных

10